論文の概要: Learning Task-relevant Sequence Representations via Intrinsic Dynamics Characteristics in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.19736v1
- Date: Thu, 30 May 2024 06:31:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 15:48:50.682604
- Title: Learning Task-relevant Sequence Representations via Intrinsic Dynamics Characteristics in Reinforcement Learning
- Title(参考訳): 強化学習における固有ダイナミクス特性によるタスク関連シーケンス表現の学習
- Authors: Dayang Liang, Jinyang Lai, Yunlong Liu,
- Abstract要約: DRLフレーム上の固有動的特徴駆動シーケンス表現学習法(DSR)を提案する。
状態遷移に関連する力学方程式をモデル化することで、エンコーダの最適化を制約する。
CARLAシミュレーターにおいて、現実の自律運転タスクにおいて最高のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 0.21051221444478305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning task-relevant state representations is crucial to solving the problem of scene generalization in visual deep reinforcement learning. Prior work typically establishes a self-supervised auxiliary learner, introducing elements (e.g., rewards and actions) to extract task-relevant state information from observations through behavioral similarity metrics. However, the methods often ignore the inherent relationships between the elements (e.g., dynamics relationships) that are essential for learning accurate representations, and they are also limited to single-step metrics, which impedes the discrimination of short-term similar task/behavior information in long-term dynamics transitions. To solve the issues, we propose an intrinsic dynamic characteristics-driven sequence representation learning method (DSR) over a common DRL frame. Concretely, inspired by the fact of state transition in the underlying system, it constrains the optimization of the encoder via modeling the dynamics equations related to the state transition, which prompts the latent encoding information to satisfy the state transition process and thereby distinguishes state space and noise space. Further, to refine the ability of encoding similar tasks based on dynamics constraints, DSR also sequentially models inherent dynamics equation relationships from the perspective of sequence elements' frequency domain and multi-step prediction. Finally, experimental results show that DSR has achieved a significant performance boost in the Distracting DMControl Benchmark, with an average of 78.9% over the backbone baseline. Further results indicate that it also achieves the best performance in real-world autonomous driving tasks in the CARLA simulator. Moreover, the qualitative analysis results of t-SNE visualization validate that our method possesses superior representation ability on visual tasks.
- Abstract(参考訳): タスク関連状態表現の学習は,視覚深層学習におけるシーン一般化の解決に不可欠である。
従来の作業は、行動類似度メトリクスを通じて、観察からタスク関連状態情報を抽出する要素(例えば、報酬や行動)を導入して、自己監督的な補助的な学習者を確立するのが一般的である。
しかしながら、これらの手法は、正確な表現を学習するのに不可欠な要素(例えば、ダイナミクスの関係)間の固有の関係を無視し、また、長期的ダイナミクス遷移における短期的な類似したタスク/行動情報の識別を妨げるシングルステップのメトリクスにも制限される。
そこで本研究では,DRLフレーム上の固有動的特徴駆動シーケンス表現学習法(DSR)を提案する。
具体的には、基礎となるシステムにおける状態遷移の事実に触発されて、状態遷移に関連する力学方程式をモデル化することでエンコーダの最適化を制約し、潜在符号化情報を状態遷移プロセスを満たすように促し、状態空間とノイズ空間を区別する。
さらに、動的制約に基づいて類似したタスクを符号化する能力を洗練させるために、DSRは配列要素の周波数領域と多段階予測の観点から、固有力学方程式関係を逐次モデル化する。
最後に、実験結果から、DSRはDistracting DMControl Benchmarkにおいて、バックボーンベースラインに対して平均78.9%の大幅なパフォーマンス向上を達成したことが示されている。
さらに,CARLAシミュレータにおける実世界の自律走行タスクにおいて,最高の性能を達成できることが示唆された。
さらに,t-SNE視覚化の質的解析結果から,視覚タスクにおける表現能力に優れることを確認した。
関連論文リスト
- Sequential Action-Induced Invariant Representation for Reinforcement
Learning [1.2046159151610263]
視覚的障害を伴う高次元観察からタスク関連状態表現を正確に学習する方法は、視覚的強化学習において難しい問題である。
本稿では,逐次動作の制御信号に従うコンポーネントのみを保持するために,補助学習者によってエンコーダを最適化した逐次行動誘発不変表現(SAR)法を提案する。
論文 参考訳(メタデータ) (2023-09-22T05:31:55Z) - EasyDGL: Encode, Train and Interpret for Continuous-time Dynamic Graph Learning [92.71579608528907]
本稿では,3つのモジュールから構成される使い勝手の良いパイプライン(EasyDGL)を設計することを目的とする。
EasyDGLは、進化するグラフデータからモデルが学習する周波数コンテンツの予測力を効果的に定量化することができる。
論文 参考訳(メタデータ) (2023-03-22T06:35:08Z) - Generalization in Visual Reinforcement Learning with the Reward Sequence
Distribution [98.67737684075587]
部分的に観察されたマルコフ決定過程(POMDP)の一般化は視覚強化学習(VRL)の成功に不可欠である
開始観測に基づく報酬系列分布と事前定義された後続行動系列(RSD-OA)を提案する。
実験により, RSD-OAに基づく表現学習手法は, 目に見えない環境における一般化性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-02-19T15:47:24Z) - Leveraging Modality-specific Representations for Audio-visual Speech
Recognition via Reinforcement Learning [25.743503223389784]
我々は、MSRLと呼ばれる強化学習(RL)ベースのフレームワークを提案する。
タスク固有のメトリクスに直接関連する報酬関数をカスタマイズする。
LRS3データセットによる実験結果から,提案手法は清浄な騒音条件と各種雑音条件の両方で最先端の手法を実現することが示された。
論文 参考訳(メタデータ) (2022-12-10T14:01:54Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - Learning Task-relevant Representations for Generalization via
Characteristic Functions of Reward Sequence Distributions [63.773813221460614]
同じタスクで異なる環境にまたがる一般化は、視覚的強化学習の成功に不可欠である。
本稿では,タスク関連情報を抽出する手法として,特徴逆列予測(CRESP)を提案する。
実験により、CRESPは目に見えない環境での一般化性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-05-20T14:52:03Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z) - Accelerating Representation Learning with View-Consistent Dynamics in
Data-Efficient Reinforcement Learning [12.485293708638292]
本稿では,動的に視点整合性を持たせることで,状態表現学習を加速することを提案する。
本稿では,多視点マルコフ決定過程 (MMDP) の定式化について述べる。
MMDP の構造に従えば,我々の手法である View-Consistent Dynamics (VCD) は,潜在空間におけるビュー-Consistent dynamics モデルをトレーニングすることによって状態表現を学習する。
論文 参考訳(メタデータ) (2022-01-18T14:28:30Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。