論文の概要: Adapting World Models with Latent-State Dynamics Residuals
- arxiv url: http://arxiv.org/abs/2504.02252v1
- Date: Thu, 03 Apr 2025 03:41:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:57:23.376749
- Title: Adapting World Models with Latent-State Dynamics Residuals
- Title(参考訳): 潜在状態ダイナミクス残差を用いた世界モデルの適用
- Authors: JB Lanier, Kyungmin Kim, Armin Karamzade, Yifei Liu, Ankita Sinha, Kat He, Davide Corsi, Roy Fox,
- Abstract要約: ReDRAWは、シミュレーションで事前訓練され、ターゲット環境に調整された潜在状態自己回帰世界モデルである。
これにより、RLエージェントを、修正された動的条件の下で想像上のロールアウトで最適化し、現実世界にデプロイすることが可能になる。
- 参考スコア(独自算出の注目度): 10.892848566977369
- License:
- Abstract: Simulation-to-reality reinforcement learning (RL) faces the critical challenge of reconciling discrepancies between simulated and real-world dynamics, which can severely degrade agent performance. A promising approach involves learning corrections to simulator forward dynamics represented as a residual error function, however this operation is impractical with high-dimensional states such as images. To overcome this, we propose ReDRAW, a latent-state autoregressive world model pretrained in simulation and calibrated to target environments through residual corrections of latent-state dynamics rather than of explicit observed states. Using this adapted world model, ReDRAW enables RL agents to be optimized with imagined rollouts under corrected dynamics and then deployed in the real world. In multiple vision-based MuJoCo domains and a physical robot visual lane-following task, ReDRAW effectively models changes to dynamics and avoids overfitting in low data regimes where traditional transfer methods fail.
- Abstract(参考訳): シミュレーション・トゥ・リアリティ強化学習(RL)は、エージェントのパフォーマンスを著しく低下させるシミュレーションと実世界のダイナミクスの相違を解消する上で重要な課題に直面している。
有望なアプローチでは、残差関数として表されるフォワードダイナミクスをシミュレーションする修正を学習するが、この操作は画像のような高次元の状態では実行できない。
そこで本稿では,ReDRAWを提案する。ReDRAWは,暗黙の観測状態ではなく,潜在状態ダイナミクスの残差補正によって,シミュレーションで事前訓練し,ターゲット環境に調整された潜在状態自己回帰世界モデルである。
この適応された世界モデルを使用することで、ReDRAWはRLエージェントを、修正された動的条件下での想像上のロールアウトで最適化し、現実世界にデプロイすることができる。
複数のビジョンベースの MuJoCo ドメインと物理ロボットの視覚レーン追従タスクでは、ReDRAW は動的に変更を効果的にモデル化し、従来の転送方法が失敗する低データレシスタンスにおける過度な適合を回避する。
関連論文リスト
- Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - Towards Realistic Data Generation for Real-World Super-Resolution [58.99206459754721]
RealDGenは、現実世界の超解像のために設計された教師なし学習データ生成フレームワークである。
我々は,コンテンツ分解脱結合拡散モデルに統合されたコンテンツと劣化抽出戦略を開発する。
実験により、RealDGenは、現実世界の劣化を反映する大規模で高品質なペアデータを生成するのに優れていることが示された。
論文 参考訳(メタデータ) (2024-06-11T13:34:57Z) - ReCoRe: Regularized Contrastive Representation Learning of World Model [21.29132219042405]
対照的な教師なし学習と介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。
提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。
論文 参考訳(メタデータ) (2023-12-14T15:53:07Z) - Reinforcement Learning with Human Feedback for Realistic Traffic
Simulation [53.85002640149283]
効果的なシミュレーションの鍵となる要素は、人間の知識と整合した現実的な交通モデルの導入である。
本研究では,現実主義に対する人間の嗜好のニュアンスを捉えることと,多様な交通シミュレーションモデルを統合することの2つの主な課題を明らかにする。
論文 参考訳(メタデータ) (2023-09-01T19:29:53Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Enhancing Deep Traffic Forecasting Models with Dynamic Regression [15.31488551912888]
本稿では,既存の交通予測モデルを改善するための動的回帰(DR)フレームワークを提案する。
提案手法の有効性を,速度と流速の両方のデータセットを用いて評価した。
論文 参考訳(メタデータ) (2023-01-17T01:12:44Z) - Dream to Explore: Adaptive Simulations for Autonomous Systems [3.0664963196464448]
ベイズ的非パラメトリック法を適用し,力学系制御の学習に挑戦する。
ガウス過程を用いて潜在世界力学を探索することにより、強化学習で観測される一般的なデータ効率の問題を緩和する。
本アルゴリズムは,ログの変動的下界を最適化することにより,世界モデルと政策を共同で学習する。
論文 参考訳(メタデータ) (2021-10-27T04:27:28Z) - Autoregressive Dynamics Models for Offline Policy Evaluation and
Optimization [60.73540999409032]
表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。
また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
論文 参考訳(メタデータ) (2021-04-28T16:48:44Z) - Learning to Reweight Imaginary Transitions for Model-Based Reinforcement
Learning [58.66067369294337]
モデルが不正確または偏りがある場合、虚構軌跡はアクション値とポリシー関数を訓練するために欠落する可能性がある。
虚構遷移を適応的に再重み付けし, 未生成軌跡の負の効果を低減させる。
提案手法は,複数のタスクにおいて,最先端のモデルベースおよびモデルフリーなRLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2021-04-09T03:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。