論文の概要: World Models as Reference Trajectories for Rapid Motor Adaptation
- arxiv url: http://arxiv.org/abs/2505.15589v1
- Date: Wed, 21 May 2025 14:46:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.704802
- Title: World Models as Reference Trajectories for Rapid Motor Adaptation
- Title(参考訳): 高速モータ適応のための基準軌道としての世界モデル
- Authors: Carlos Stein Brito, Daniel McNamee,
- Abstract要約: リフレクティブ・ワールド・モデル(Reflexive World Models、RWM)は、世界モデル予測を暗黙の基準軌跡として使用し、迅速な適応を行うための二重制御フレームワークである。
本手法は、強化学習とロバストモータ実行により、制御問題を長期報酬に分離する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying learned control policies in real-world environments poses a fundamental challenge. When system dynamics change unexpectedly, performance degrades until models are retrained on new data. We introduce Reflexive World Models (RWM), a dual control framework that uses world model predictions as implicit reference trajectories for rapid adaptation. Our method separates the control problem into long-term reward maximization through reinforcement learning and robust motor execution through rapid latent control. This dual architecture achieves significantly faster adaptation with low online computational cost compared to model-based RL baselines, while maintaining near-optimal performance. The approach combines the benefits of flexible policy learning through reinforcement learning with rapid error correction capabilities, providing a principled approach to maintaining performance in high-dimensional continuous control tasks under varying dynamics.
- Abstract(参考訳): 学習したコントロールポリシーを現実世界に展開することは、根本的な課題である。
システムダイナミクスが予期せず変化すると、モデルが新しいデータで再トレーニングされるまでパフォーマンスが低下する。
本稿では,世界モデル予測を暗黙の参照軌跡として用いた二元制御フレームワークであるReflexive World Models (RWM)を紹介する。
本手法では, 高速潜伏制御による強化学習とロバストモータ実行により, 制御問題を長期報酬最大化に分離する。
この二重アーキテクチャは、ほぼ最適性能を維持しながら、モデルベースのRLベースラインと比較して、オンライン計算コストの低い適応を著しく高速化する。
このアプローチは、強化学習によるフレキシブルなポリシー学習と迅速な誤り訂正機能を組み合わせたもので、動的に変化する高次元連続制御タスクのパフォーマンスを維持するための原則的なアプローチを提供する。
関連論文リスト
- Policy-Driven World Model Adaptation for Robust Offline Model-based Reinforcement Learning [6.189693079685375]
オフラインモデルベースRL(MBRL)は、静的データセットからワールドモデルを明示的に学習する。
政策とともに世界モデルを動的に適用する枠組みを提案する。
我々は,D4RL MuJoCoタスク12件とTokamak Controlタスク3件のアルゴリズムをベンチマークし,その最先端性能を実証した。
論文 参考訳(メタデータ) (2025-05-19T20:14:33Z) - World Model-Based Learning for Long-Term Age of Information Minimization in Vehicular Networks [53.98633183204453]
本稿では,車載ネットワークにおけるパケット完全性認識情報(CAoI)の年齢を最小化するために,新しい世界モデルに基づく学習フレームワークを提案する。
mmWave V2X環境の動的モデルを共同で学習し、リンクスケジューリングの方法を学ぶための軌跡を想像するために使用する世界モデルフレームワークを提案する。
特に、長期的な政策は環境相互作用の代わりに、異なる想像軌道で学習される。
論文 参考訳(メタデータ) (2025-05-03T06:23:18Z) - AdaWM: Adaptive World Model based Planning for Autonomous Driving [34.57859869929471]
世界モデルに基づく強化学習(RL)が自律運転の有望なアプローチとして登場した。
プレトレイン-ファイントゥンパラダイムは、オンラインRLが事前訓練されたモデルによってパフォーマンスされ、オフラインで学習されるポリシーで使用されることが多い。
本稿では,アダプティブ・ワールド・モデルに基づく計画手法であるAdaWMを紹介する。(a)ミスマッチを定量化し,微調整戦略を通知するミスマッチ識別と,(b)ポリシーやモデルを必要に応じて選択的に更新するアライメント駆動微調整である。
論文 参考訳(メタデータ) (2025-01-22T18:34:51Z) - From Imitation to Exploration: End-to-end Autonomous Driving based on World Model [24.578178308010912]
RAMBLEは、意思決定を駆動するエンド・ツー・エンドの世界モデルベースのRL方式である。
複雑な動的トラフィックシナリオを処理できる。
CARLA Leaderboard 1.0では、ルート完了率の最先端のパフォーマンスを達成し、CARLA Leaderboard 2.0では38のシナリオをすべて完了している。
論文 参考訳(メタデータ) (2024-10-03T06:45:59Z) - Physics Enhanced Residual Policy Learning (PERPL) for safety cruising in mixed traffic platooning under actuator and communication delay [8.172286651098027]
線形制御モデルは、その単純さ、使いやすさ、安定性解析のサポートにより、車両制御に広範囲に応用されている。
一方、強化学習(RL)モデルは適応性を提供するが、解釈可能性や一般化能力の欠如に悩まされる。
本稿では,物理インフォームドポリシによって強化されたRL制御系の開発を目標とする。
論文 参考訳(メタデータ) (2024-09-23T23:02:34Z) - Expressive and Generalizable Low-rank Adaptation for Large Models via Slow Cascaded Learning [55.5715496559514]
LoRA Slow Cascade Learning (LoRASC)は、LoRAの表現性と一般化能力を高めるために設計された革新的な技術である。
提案手法は,混合低ランク適応を可能にするカスケード学習戦略により表現性を増強し,複雑なパターンをキャプチャするモデルの能力を高める。
論文 参考訳(メタデータ) (2024-07-01T17:28:59Z) - Active Learning of Discrete-Time Dynamics for Uncertainty-Aware Model Predictive Control [46.81433026280051]
本稿では,非線形ロボットシステムの力学を積極的にモデル化する自己教師型学習手法を提案する。
我々のアプローチは、目に見えない飛行条件に一貫して適応することで、高いレジリエンスと一般化能力を示す。
論文 参考訳(メタデータ) (2022-10-23T00:45:05Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。