論文の概要: Policy-Driven World Model Adaptation for Robust Offline Model-based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.13709v1
- Date: Mon, 19 May 2025 20:14:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.531426
- Title: Policy-Driven World Model Adaptation for Robust Offline Model-based Reinforcement Learning
- Title(参考訳): ロバストオフラインモデルに基づく強化学習のためのポリシー駆動型世界モデル適応
- Authors: Jiayu Chen, Aravind Venugopal, Jeff Schneider,
- Abstract要約: オフラインモデルベースRL(MBRL)は、静的データセットからワールドモデルを明示的に学習する。
政策とともに世界モデルを動的に適用する枠組みを提案する。
我々は,D4RL MuJoCoタスク12件とTokamak Controlタスク3件のアルゴリズムをベンチマークし,その最先端性能を実証した。
- 参考スコア(独自算出の注目度): 6.189693079685375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) offers a powerful paradigm for data-driven control. Compared to model-free approaches, offline model-based RL (MBRL) explicitly learns a world model from a static dataset and uses it as a surrogate simulator, improving data efficiency and enabling potential generalization beyond the dataset support. However, most existing offline MBRL methods follow a two-stage training procedure: first learning a world model by maximizing the likelihood of the observed transitions, then optimizing a policy to maximize its expected return under the learned model. This objective mismatch results in a world model that is not necessarily optimized for effective policy learning. Moreover, we observe that policies learned via offline MBRL often lack robustness during deployment, and small adversarial noise in the environment can lead to significant performance degradation. To address these, we propose a framework that dynamically adapts the world model alongside the policy under a unified learning objective aimed at improving robustness. At the core of our method is a maximin optimization problem, which we solve by innovatively utilizing Stackelberg learning dynamics. We provide theoretical analysis to support our design and introduce computationally efficient implementations. We benchmark our algorithm on twelve noisy D4RL MuJoCo tasks and three stochastic Tokamak Control tasks, demonstrating its state-of-the-art performance.
- Abstract(参考訳): オフライン強化学習(RL)は、データ駆動制御のための強力なパラダイムを提供する。
モデルフリーアプローチと比較して、オフラインモデルベースRL(MBRL)は、静的データセットからワールドモデルを明示的に学習し、サロゲートシミュレータとして使用し、データ効率を改善し、データセットのサポートを超えて潜在的な一般化を可能にする。
しかしながら、既存のオフラインMBRL手法の多くは、2段階のトレーニング手順に従っている。まず、観測された遷移の可能性を最大化して世界モデルを学習し、次に学習モデルの下で期待されるリターンを最大化するポリシーを最適化する。
この客観的なミスマッチは、必ずしも効果的な政策学習に最適化されていない世界モデルをもたらす。
さらに、オフラインのMBRLで学習したポリシーは、デプロイメント中に堅牢性が欠如し、環境内の小さな対向ノイズが性能を著しく低下させる可能性があることを観察する。
そこで本稿では,ロバスト性向上を目的とした統一的な学習目標の下で,世界モデルと政策を協調して動的に適応するフレームワークを提案する。
提案手法の核となるのは最大最適化問題であり,Stackelbergの学習力学を革新的に活用することで解決する。
我々は,設計を支援する理論解析を行い,計算効率の良い実装を導入する。
我々は,D4RL MuJoCoタスク12件と確率的トカマク制御タスク3件のアルゴリズムをベンチマークし,その最先端性能を実証した。
関連論文リスト
- Bayes Adaptive Monte Carlo Tree Search for Offline Model-based Reinforcement Learning [5.663006149337036]
オフラインモデルベースRL(MBRL)は、静的データセットからワールドモデルを明示的に学習し、サロゲートシミュレータとして使用する。
オフラインデータセットで同じように振る舞う様々なMDPがあり、真のMDPに関する不確実性を扱うことは困難である。
本稿では,BAMDP(Bayes Adaptive Markov Decision Process)としてオフラインMBRLのモデル化を提案する。
論文 参考訳(メタデータ) (2024-10-15T03:36:43Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Model Generation with Provable Coverability for Offline Reinforcement
Learning [14.333861814143718]
動的対応ポリシーによるオフライン最適化は、ポリシー学習とアウト・オブ・ディストリビューションの一般化の新しい視点を提供する。
しかし、オフライン環境での制限のため、学習したモデルは実際のダイナミクスを十分に模倣することができず、信頼性の高いアウト・オブ・ディストリビューション探索をサポートできなかった。
本研究では,実力学のカバレッジを最適化するモデルを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-01T08:34:09Z) - Model-Advantage Optimization for Model-Based Reinforcement Learning [41.13567626667456]
モデルに基づく強化学習(MBRL)アルゴリズムは、伝統的に環境の正確な力学を学習するために設計されてきた。
モデル学習を最大限に活用するためのモデル学習パラダイムであるバリューアウェアモデル学習は,学習ポリシーの価値関数を通じてモデル学習に通知することを提案する。
本稿では、2つのモデルにまたがるポリシーの絶対的な性能差の上限である新しい値認識目的を提案する。
論文 参考訳(メタデータ) (2021-06-26T20:01:28Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。