論文の概要: Intrinsic Dynamics-Driven Generalizable Scene Representations for Vision-Oriented Decision-Making Applications
- arxiv url: http://arxiv.org/abs/2405.19736v2
- Date: Sun, 30 Jun 2024 06:25:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-02 13:50:34.238750
- Title: Intrinsic Dynamics-Driven Generalizable Scene Representations for Vision-Oriented Decision-Making Applications
- Title(参考訳): 視覚指向型意思決定のための固有ダイナミクス駆動型一般化可能なシーン表現
- Authors: Dayang Liang, Jinyang Lai, Yunlong Liu,
- Abstract要約: シーン表現の能力をいかに向上させるかは、ビジョン指向の意思決定アプリケーションにおいて重要な問題である。
視覚強化学習におけるシーケンスモデルを用いた固有ダイナミクス駆動表現学習法を提案する。
- 参考スコア(独自算出の注目度): 0.21051221444478305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How to improve the ability of scene representation is a key issue in vision-oriented decision-making applications, and current approaches usually learn task-relevant state representations within visual reinforcement learning to address this problem. While prior work typically introduces one-step behavioral similarity metrics with elements (e.g., rewards and actions) to extract task-relevant state information from observations, they often ignore the inherent dynamics relationships among the elements that are essential for learning accurate representations, which further impedes the discrimination of short-term similar task/behavior information in long-term dynamics transitions. To alleviate this problem, we propose an intrinsic dynamics-driven representation learning method with sequence models in visual reinforcement learning, namely DSR. Concretely, DSR optimizes the parameterized encoder by the state-transition dynamics of the underlying system, which prompts the latent encoding information to satisfy the state-transition process and then the state space and the noise space can be distinguished. In the implementation and to further improve the representation ability of DSR on encoding similar tasks, sequential elements' frequency domain and multi-step prediction are adopted for sequentially modeling the inherent dynamics. Finally, experimental results show that DSR has achieved significant performance improvements in the visual Distracting DMControl control tasks, especially with an average of 78.9\% over the backbone baseline. Further results indicate that it also achieves the best performances in real-world autonomous driving applications on the CARLA simulator. Moreover, qualitative analysis results validate that our method possesses the superior ability to learn generalizable scene representations on visual tasks. The source code is available at https://github.com/DMU-XMU/DSR.
- Abstract(参考訳): シーン表現の能力向上は、ビジョン指向意思決定アプリケーションにおいて重要な問題であり、現状のアプローチでは、この問題を解決するために視覚強化学習の中でタスク関連の状態表現を学習する。
従来の作業では、観察からタスク関連状態情報を抽出するために、要素(例えば、報酬や行動)を1段階の行動類似度指標として導入するが、正確な表現を学ぶのに不可欠な要素間の固有のダイナミクス関係を無視することが多く、長期的ダイナミクス遷移における短期的な類似したタスク/行動情報の識別を妨げている。
この問題を軽減するために,視覚的強化学習(DSR)におけるシーケンスモデルを用いた固有ダイナミクス駆動表現学習法を提案する。
具体的には、DSRは、パラメータ化エンコーダを基礎システムの状態遷移ダイナミクスによって最適化し、潜時符号化情報を状態遷移過程を満たすように促し、状態空間とノイズ空間を区別することができる。
類似したタスクを符号化する上でのDSRの表現能力をさらに向上するために、シーケンシャル要素の周波数領域とマルチステップ予測を採用し、固有ダイナミクスを逐次モデル化する。
最後に、実験結果から、DSRは視覚的抽出DMControl制御タスクにおいて、特に背骨ベースライン平均78.9\%で大幅な性能改善を達成していることが示された。
さらに,CARLAシミュレータ上での現実の自律運転アプリケーションにおいて,最高の性能を達成できることが示唆された。
さらに、定性的な解析結果から、視覚タスクにおける一般化可能なシーン表現を学習する能力に優れた方法があることが検証された。
ソースコードはhttps://github.com/DMU-XMU/DSRで公開されている。
関連論文リスト
- Sequential Action-Induced Invariant Representation for Reinforcement
Learning [1.2046159151610263]
視覚的障害を伴う高次元観察からタスク関連状態表現を正確に学習する方法は、視覚的強化学習において難しい問題である。
本稿では,逐次動作の制御信号に従うコンポーネントのみを保持するために,補助学習者によってエンコーダを最適化した逐次行動誘発不変表現(SAR)法を提案する。
論文 参考訳(メタデータ) (2023-09-22T05:31:55Z) - EasyDGL: Encode, Train and Interpret for Continuous-time Dynamic Graph
Learning [114.72818205974285]
本稿では,3つのモジュールから構成される使い勝手の良いパイプライン(EasyDGL)を設計することを目的とする。
EasyDGLは、進化するグラフデータからモデルが学習する周波数コンテンツの予測力を効果的に定量化することができる。
論文 参考訳(メタデータ) (2023-03-22T06:35:08Z) - Generalization in Visual Reinforcement Learning with the Reward Sequence
Distribution [98.67737684075587]
部分的に観察されたマルコフ決定過程(POMDP)の一般化は視覚強化学習(VRL)の成功に不可欠である
開始観測に基づく報酬系列分布と事前定義された後続行動系列(RSD-OA)を提案する。
実験により, RSD-OAに基づく表現学習手法は, 目に見えない環境における一般化性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-02-19T15:47:24Z) - Leveraging Modality-specific Representations for Audio-visual Speech
Recognition via Reinforcement Learning [25.743503223389784]
我々は、MSRLと呼ばれる強化学習(RL)ベースのフレームワークを提案する。
タスク固有のメトリクスに直接関連する報酬関数をカスタマイズする。
LRS3データセットによる実験結果から,提案手法は清浄な騒音条件と各種雑音条件の両方で最先端の手法を実現することが示された。
論文 参考訳(メタデータ) (2022-12-10T14:01:54Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - Learning Task-relevant Representations for Generalization via
Characteristic Functions of Reward Sequence Distributions [63.773813221460614]
同じタスクで異なる環境にまたがる一般化は、視覚的強化学習の成功に不可欠である。
本稿では,タスク関連情報を抽出する手法として,特徴逆列予測(CRESP)を提案する。
実験により、CRESPは目に見えない環境での一般化性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-05-20T14:52:03Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z) - Accelerating Representation Learning with View-Consistent Dynamics in
Data-Efficient Reinforcement Learning [12.485293708638292]
本稿では,動的に視点整合性を持たせることで,状態表現学習を加速することを提案する。
本稿では,多視点マルコフ決定過程 (MMDP) の定式化について述べる。
MMDP の構造に従えば,我々の手法である View-Consistent Dynamics (VCD) は,潜在空間におけるビュー-Consistent dynamics モデルをトレーニングすることによって状態表現を学習する。
論文 参考訳(メタデータ) (2022-01-18T14:28:30Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。