Fugu-MT 論文翻訳(概要): Learning Latent Dynamic Robust Representations for World Models

論文の概要: Learning Latent Dynamic Robust Representations for World Models

arxiv url: http://arxiv.org/abs/2405.06263v2
Date: Thu, 30 May 2024 09:40:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-31 20:15:18.482969
Title: Learning Latent Dynamic Robust Representations for World Models
Title（参考訳）: 世界モデルに対する潜在動的ロバスト表現の学習
Authors: Ruixiang Sun, Hongyu Zang, Xin Li, Riashat Islam,
Abstract要約: Visual Model-Based Reinforcement Learning (MBL)は、環境の基盤となるダイナミクスに関する知識をエージェントに伝えることを約束する。ドリーマーのような時空エージェントは、観測空間に無関係なノイズが存在する場合、しばしば視覚的なピクセルベースの入力に苦しむ。本研究では,世界モデルにおけるタスク固有の環境の内在的側面を捉えるために,アテンポ的マスキング戦略と潜在的再構築を併用して適用する。
参考スコア（独自算出の注目度）: 9.806852421730165
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual Model-Based Reinforcement Learning (MBRL) promises to encapsulate agent's knowledge about the underlying dynamics of the environment, enabling learning a world model as a useful planner. However, top MBRL agents such as Dreamer often struggle with visual pixel-based inputs in the presence of exogenous or irrelevant noise in the observation space, due to failure to capture task-specific features while filtering out irrelevant spatio-temporal details. To tackle this problem, we apply a spatio-temporal masking strategy, a bisimulation principle, combined with latent reconstruction, to capture endogenous task-specific aspects of the environment for world models, effectively eliminating non-essential information. Joint training of representations, dynamics, and policy often leads to instabilities. To further address this issue, we develop a Hybrid Recurrent State-Space Model (HRSSM) structure, enhancing state representation robustness for effective policy learning. Our empirical evaluation demonstrates significant performance improvements over existing methods in a range of visually complex control tasks such as Maniskill \cite{gu2023maniskill2} with exogenous distractors from the Matterport environment. Our code is avaliable at https://github.com/bit1029public/HRSSM.
Abstract（参考訳）: Visual Model-Based Reinforcement Learning (MBRL)は、エージェントの環境の基盤となるダイナミクスに関する知識をカプセル化することで、ワールドモデルを有用なプランナーとして学習できるようにする。しかし、Dreamerのような上位のMBRLエージェントは、時空間における外因性または無関係なノイズの存在下で視覚的なピクセルベースの入力に苦労することが多い。この問題に対処するため,世界モデルにおける課題固有の環境の内在的側面を把握し,非意味情報を効果的に排除するために,時空間マスキング戦略,バイシミュレーション原理と潜時再構成を併用した。表現、ダイナミクス、ポリシーの合同トレーニングは、しばしば不安定を引き起こす。この問題をさらに解決するため,我々はHybrid Recurrent State-Space Model (HRSSM) 構造を開発し,効果的な政策学習のための状態表現の堅牢性を高める。 Maniskill \cite{gu2023maniskill2}のような視覚的に複雑な制御タスクにおいて,Matterport環境から外因性障害を発生させることにより,既存の手法よりも優れた性能向上を実証した。私たちのコードはhttps://github.com/bit1029public/HRSSMで無効です。

関連論文リスト

Salience-Invariant Consistent Policy Learning for Generalization in Visual Reinforcement Learning [12.9372563969007]
見えないシナリオにポリシーを一般化することは、視覚的強化学習において重要な課題である。目に見えない環境では、不注意なピクセルがエージェントにタスク関連情報を含む表現を抽出させる可能性がある。ゼロショット一般化のための効率的なフレームワークであるSalience-Invariant Consistent Policy Learningアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-02-12T12:00:16Z)
Objects matter: object-centric world models improve reinforcement learning in visually complex environments [2.2532647717990937]
視覚的に複雑なゲームのためのオブジェクト中心強化学習パイプラインを提案する。このパイプラインが,従来のモデルベース強化学習の限界を克服する方法について説明する。
論文参考訳（メタデータ） (2025-01-27T19:07:06Z)
Exploring the limits of Hierarchical World Models in Reinforcement Learning [0.7499722271664147]
我々は,新しいHMBRLフレームワークを記述し,それを徹底的に評価する。時間的抽象の様々なレベルで環境力学をシミュレートする階層的世界モデルを構築した。ほとんどのゴール条件付き H(MB)RL アプローチとは異なり、これは相対的に低次元の抽象作用をもたらす。
論文参考訳（メタデータ） (2024-06-01T16:29:03Z)
Efficient Imitation Learning with Conservative World Models [54.52140201148341]
報酬機能のない専門家によるデモンストレーションから政策学習の課題に取り組む。純粋な強化学習ではなく、微調整問題として模倣学習を再構成する。
論文参考訳（メタデータ） (2024-05-21T20:53:18Z)
Relational Object-Centric Actor-Critic [44.99833362998488]
近年の研究では、アンタングルオブジェクト表現は、イメージベースでオブジェクト中心の強化学習タスクにおけるポリシー学習に役立つことが強調されている。本稿では,アクタ批判的アプローチとモデルに基づくアプローチを統合した,オブジェクト中心強化学習アルゴリズムを提案する。シミュレーションされた3次元ロボット環境と構成構造を持つ2次元環境において,本手法の評価を行った。
論文参考訳（メタデータ） (2023-10-26T06:05:12Z)
HarmonyDream: Task Harmonization Inside World Models [93.07314830304193]
モデルベース強化学習(MBRL)は、サンプル効率の学習を約束する。本稿では,タスク調和性を維持するために損失係数を自動的に調整する,シンプルで効果的なアプローチであるHarmonyDreamを提案する。
論文参考訳（メタデータ） (2023-09-30T11:38:13Z)
Predictive Experience Replay for Continual Visual Control and Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文参考訳（メタデータ） (2023-03-12T05:08:03Z)
Dream to Explore: Adaptive Simulations for Autonomous Systems [3.0664963196464448]
ベイズ的非パラメトリック法を適用し,力学系制御の学習に挑戦する。ガウス過程を用いて潜在世界力学を探索することにより、強化学習で観測される一般的なデータ効率の問題を緩和する。本アルゴリズムは,ログの変動的下界を最適化することにより,世界モデルと政策を共同で学習する。
論文参考訳（メタデータ） (2021-10-27T04:27:28Z)
Temporal Predictive Coding For Model-Based Planning In Latent Space [80.99554006174093]
時間的に予測可能な環境要素を符号化するために,時間的予測符号化を用いた情報理論的手法を提案する。本稿では,DMControl タスクの背景を複雑な情報を含む自然なビデオに置き換える,標準的な DMControl タスクの挑戦的な修正について評価する。
論文参考訳（メタデータ） (2021-06-14T04:31:15Z)
Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文参考訳（メタデータ） (2020-12-21T18:28:17Z)
Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文参考訳（メタデータ） (2020-07-14T16:42:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。