論文の概要: MuDreamer: Learning Predictive World Models without Reconstruction
- arxiv url: http://arxiv.org/abs/2405.15083v1
- Date: Thu, 23 May 2024 22:09:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 18:48:01.398836
- Title: MuDreamer: Learning Predictive World Models without Reconstruction
- Title(参考訳): MuDreamer: 再現性のない予測的世界モデルを学ぶ
- Authors: Maxime Burchi, Radu Timofte,
- Abstract要約: 本稿では,DreamerV3アルゴリズムに基づく堅牢な強化学習エージェントであるMuDreamerについて述べる。
本手法は,Atari100kベンチマークにおいて,より高速なトレーニングの恩恵を受けながら,同等のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 58.0159270859475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The DreamerV3 agent recently demonstrated state-of-the-art performance in diverse domains, learning powerful world models in latent space using a pixel reconstruction loss. However, while the reconstruction loss is essential to Dreamer's performance, it also necessitates modeling unnecessary information. Consequently, Dreamer sometimes fails to perceive crucial elements which are necessary for task-solving when visual distractions are present in the observation, significantly limiting its potential. In this paper, we present MuDreamer, a robust reinforcement learning agent that builds upon the DreamerV3 algorithm by learning a predictive world model without the need for reconstructing input signals. Rather than relying on pixel reconstruction, hidden representations are instead learned by predicting the environment value function and previously selected actions. Similar to predictive self-supervised methods for images, we find that the use of batch normalization is crucial to prevent learning collapse. We also study the effect of KL balancing between model posterior and prior losses on convergence speed and learning stability. We evaluate MuDreamer on the commonly used DeepMind Visual Control Suite and demonstrate stronger robustness to visual distractions compared to DreamerV3 and other reconstruction-free approaches, replacing the environment background with task-irrelevant real-world videos. Our method also achieves comparable performance on the Atari100k benchmark while benefiting from faster training.
- Abstract(参考訳): DreamerV3エージェントは最近、さまざまな領域で最先端のパフォーマンスを示し、ピクセル再構成損失を使用して潜在空間における強力な世界モデルを学んだ。
しかし、再構築損失はドリーマーのパフォーマンスに不可欠であるが、不要な情報のモデリングも必要である。
その結果、ドリーマーは観察中に視覚的注意散らしが存在する場合、タスク解決に必要な重要な要素を認識できない場合があり、その潜在能力を著しく制限する。
本稿では,DreamerV3アルゴリズムに基づく堅牢な強化学習エージェントであるMuDreamerについて述べる。
ピクセル再構成に頼るのではなく、環境値関数と以前選択されたアクションを予測することで、隠れた表現が学習される。
画像の予測自己教師手法と同様に、バッチ正規化の使用は学習の崩壊を防ぐために不可欠である。
また,モデル後部と先行損失間のKLバランスが収束速度および学習安定性に及ぼす影響についても検討した。
我々は、一般的に使用されているDeepMind Visual Control Suite上でMuDreamerを評価し、DreamerV3や他の再構成不要なアプローチと比較して、視覚的邪魔に対して強い堅牢性を示し、環境背景をタスク非関連の実世界のビデオに置き換えた。
また,Atari100kベンチマークでは,より高速なトレーニングの恩恵を受けながら,同等のパフォーマンスを実現している。
関連論文リスト
- CURLing the Dream: Contrastive Representations for World Modeling in Reinforcement Learning [0.22615818641180724]
Curled-Dreamerは、コントラスト学習をDreamerV3フレームワークに統合する、新しい強化学習アルゴリズムである。
我々の実験では、Curled-Dreamerは最先端のアルゴリズムより一貫して優れています。
論文 参考訳(メタデータ) (2024-08-11T14:13:22Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - DreamingV2: Reinforcement Learning with Discrete World Models without
Reconstruction [14.950054143767824]
本稿では,世界モデルを用いた新しい強化学習手法DreamingV2を提案する。
DreamingV2はDreamerV2とDreamingの共同拡張である。
我々はDreamingV2がロボット学習の信頼性の高いソリューションになると信じている。
論文 参考訳(メタデータ) (2022-03-01T14:44:15Z) - Robust Robotic Control from Pixels using Contrastive Recurrent
State-Space Models [8.22669535053079]
本研究では、画像などの高次元観測空間上で、制約のない環境で世界モデルを学習する方法を研究する。
困難の原因の1つは、無関係ではあるが、モデルによる背景の混乱の存在である。
我々は、次の観測を対照的に予測する反復潜時力学モデルを学ぶ。
このシンプルなモデルは、同時にカメラ、背景、色を逸脱しても驚くほど頑丈なロボット制御に繋がる。
論文 参考訳(メタデータ) (2021-12-02T12:15:25Z) - DreamerPro: Reconstruction-Free Model-Based Reinforcement Learning with
Prototypical Representations [18.770113681323906]
モデルベース強化学習(MBRL)のエージェントであるドリーマー(Dreamer)は、画像観察を再構築することで世界モデルを学ぶ。
本研究では,世界モデルの繰り返し状態からプロトタイプを学習し,過去の観測と行動から時間構造を蒸留してプロトタイプを作成することを提案する。
結果、DreamerProはDreamerとプロトタイプをうまく組み合わせ、DeepMind Controlスイートで大きなパフォーマンス向上を実現した。
論文 参考訳(メタデータ) (2021-10-27T16:35:00Z) - Stereopagnosia: Fooling Stereo Networks with Adversarial Perturbations [71.00754846434744]
知覚不能な加法的摂動は,差分マップを著しく変更できることを示す。
敵データ拡張に使用すると、我々の摂動はより堅牢なトレーニングされたモデルをもたらすことを示す。
論文 参考訳(メタデータ) (2020-09-21T19:20:09Z) - Neural Descent for Visual 3D Human Pose and Shape [67.01050349629053]
入力RGB画像から3次元のポーズと形状を復元するディープニューラルネットワーク手法を提案する。
我々は最近導入された表現力のあるボディ統計モデルGHUMに頼っている。
我々の方法論の中心は、HUmanNeural Descent (HUND)と呼ばれるアプローチの学習と最適化である。
論文 参考訳(メタデータ) (2020-08-16T13:38:41Z) - Dreaming: Model-based Reinforcement Learning by Latent Imagination
without Reconstruction [14.950054143767824]
本稿では,Dreamerのデコーダフリー拡張を提案する。
我々は,ドリーマーの限界の低い証拠から,コントラスト学習という,可能性のないInfoMax目標を導出する。
新たに考案したDreamer with InfoMax and without Generative decoder (Dreaming)は,Dreamerや他のモデルレス強化学習手法と比較して,5つの困難なロボットタスクにおいて最高のスコアを得る。
論文 参考訳(メタデータ) (2020-07-29T00:14:40Z) - Auto-Rectify Network for Unsupervised Indoor Depth Estimation [119.82412041164372]
ハンドヘルド環境に現れる複雑な自我運動が,学習深度にとって重要な障害であることが確認された。
本稿では,相対回転を除去してトレーニング画像の修正を効果的に行うデータ前処理手法を提案する。
その結果、従来の教師なしSOTA法よりも、難易度の高いNYUv2データセットよりも優れていた。
論文 参考訳(メタデータ) (2020-06-04T08:59:17Z) - Mutual Information Maximization for Robust Plannable Representations [82.83676853746742]
モデルに基づく強化学習のための情報理論表現学習アルゴリズムMIROを提案する。
提案手法は, 邪魔や散らかったシーンの存在下で, 再建目的よりも頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-16T21:58:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。