論文の概要: Learning Latent Dynamic Robust Representations for World Models
- arxiv url: http://arxiv.org/abs/2405.06263v2
- Date: Thu, 30 May 2024 09:40:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 20:15:18.482969
- Title: Learning Latent Dynamic Robust Representations for World Models
- Title(参考訳): 世界モデルに対する潜在動的ロバスト表現の学習
- Authors: Ruixiang Sun, Hongyu Zang, Xin Li, Riashat Islam,
- Abstract要約: Visual Model-Based Reinforcement Learning (MBL)は、環境の基盤となるダイナミクスに関する知識をエージェントに伝えることを約束する。
ドリーマーのような時空エージェントは、観測空間に無関係なノイズが存在する場合、しばしば視覚的なピクセルベースの入力に苦しむ。
本研究では,世界モデルにおけるタスク固有の環境の内在的側面を捉えるために,アテンポ的マスキング戦略と潜在的再構築を併用して適用する。
- 参考スコア(独自算出の注目度): 9.806852421730165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Model-Based Reinforcement Learning (MBRL) promises to encapsulate agent's knowledge about the underlying dynamics of the environment, enabling learning a world model as a useful planner. However, top MBRL agents such as Dreamer often struggle with visual pixel-based inputs in the presence of exogenous or irrelevant noise in the observation space, due to failure to capture task-specific features while filtering out irrelevant spatio-temporal details. To tackle this problem, we apply a spatio-temporal masking strategy, a bisimulation principle, combined with latent reconstruction, to capture endogenous task-specific aspects of the environment for world models, effectively eliminating non-essential information. Joint training of representations, dynamics, and policy often leads to instabilities. To further address this issue, we develop a Hybrid Recurrent State-Space Model (HRSSM) structure, enhancing state representation robustness for effective policy learning. Our empirical evaluation demonstrates significant performance improvements over existing methods in a range of visually complex control tasks such as Maniskill \cite{gu2023maniskill2} with exogenous distractors from the Matterport environment. Our code is avaliable at https://github.com/bit1029public/HRSSM.
- Abstract(参考訳): Visual Model-Based Reinforcement Learning (MBRL)は、エージェントの環境の基盤となるダイナミクスに関する知識をカプセル化することで、ワールドモデルを有用なプランナーとして学習できるようにする。
しかし、Dreamerのような上位のMBRLエージェントは、時空間における外因性または無関係なノイズの存在下で視覚的なピクセルベースの入力に苦労することが多い。
この問題に対処するため,世界モデルにおける課題固有の環境の内在的側面を把握し,非意味情報を効果的に排除するために,時空間マスキング戦略,バイシミュレーション原理と潜時再構成を併用した。
表現、ダイナミクス、ポリシーの合同トレーニングは、しばしば不安定を引き起こす。
この問題をさらに解決するため,我々はHybrid Recurrent State-Space Model (HRSSM) 構造を開発し,効果的な政策学習のための状態表現の堅牢性を高める。
Maniskill \cite{gu2023maniskill2}のような視覚的に複雑な制御タスクにおいて,Matterport環境から外因性障害を発生させることにより,既存の手法よりも優れた性能向上を実証した。
私たちのコードはhttps://github.com/bit1029public/HRSSMで無効です。
関連論文リスト
- Exploring the limits of Hierarchical World Models in Reinforcement Learning [0.7499722271664147]
我々は,新しいHMBRLフレームワークを記述し,それを徹底的に評価する。
時間的抽象の様々なレベルで環境力学をシミュレートする階層的世界モデルを構築した。
ほとんどのゴール条件付き H(MB)RL アプローチとは異なり、これは相対的に低次元の抽象作用をもたらす。
論文 参考訳(メタデータ) (2024-06-01T16:29:03Z) - Efficient Imitation Learning with Conservative World Models [54.52140201148341]
報酬機能のない専門家によるデモンストレーションから政策学習の課題に取り組む。
純粋な強化学習ではなく、微調整問題として模倣学習を再構成する。
論文 参考訳(メタデータ) (2024-05-21T20:53:18Z) - HarmonyDream: Task Harmonization Inside World Models [93.07314830304193]
モデルベース強化学習(MBRL)は、サンプル効率の学習を約束する。
本稿では,タスク調和性を維持するために損失係数を自動的に調整する,シンプルで効果的なアプローチであるHarmonyDreamを提案する。
論文 参考訳(メタデータ) (2023-09-30T11:38:13Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Dream to Explore: Adaptive Simulations for Autonomous Systems [3.0664963196464448]
ベイズ的非パラメトリック法を適用し,力学系制御の学習に挑戦する。
ガウス過程を用いて潜在世界力学を探索することにより、強化学習で観測される一般的なデータ効率の問題を緩和する。
本アルゴリズムは,ログの変動的下界を最適化することにより,世界モデルと政策を共同で学習する。
論文 参考訳(メタデータ) (2021-10-27T04:27:28Z) - Temporal Predictive Coding For Model-Based Planning In Latent Space [80.99554006174093]
時間的に予測可能な環境要素を符号化するために,時間的予測符号化を用いた情報理論的手法を提案する。
本稿では,DMControl タスクの背景を複雑な情報を含む自然なビデオに置き換える,標準的な DMControl タスクの挑戦的な修正について評価する。
論文 参考訳(メタデータ) (2021-06-14T04:31:15Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。