論文の概要: Scaling World-Model Reinforcement Learning Through Diffusion Policy Optimization
- arxiv url: http://arxiv.org/abs/2605.26282v1
- Date: Mon, 25 May 2026 19:06:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.373459
- Title: Scaling World-Model Reinforcement Learning Through Diffusion Policy Optimization
- Title(参考訳): 拡散政策最適化による世界モデル強化学習のスケーリング
- Authors: Xiaoyuan Cheng, Wenxuan Yuan, Zhancun Mu, Yuanzhao Zhang, Yiming Yang, Hai Wang, Zhuo Sun, Che Liu,
- Abstract要約: モデルに基づく強化学習は、世界モデルを用いて、大規模に効果的に支援することができる。
我々は、既存の世界モデルアプローチにおける検索と価値学習の間の構造的ミスアライメントであるボトルネックを特定する。
拡散政策表現を通じて探索と政策最適化を統一するフレームワークである世界モデルにおけるモデルベース拡散政策最適化(MBDPO)を提案する。
- 参考スコア(独自算出の注目度): 46.32504081845328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-based reinforcement learning (RL) can be effectively supported at scale through the use of world models. However, in practice, scaling such approaches remains fundamentally limited. A commonly recognized challenge is model bias and error compounding, which degrade long-horizon predictions. Beyond these issues, we identify a more critical yet underexplored bottleneck: a structural misalignment between search and value learning in existing world model approaches. In particular, policy improvement often relies on value functions induced by a separate, non-search policy, resulting in training inconsistency and ultimately suboptimal learning. To address this limitation, we propose Model-Based Diffusion Policy Optimization (MBDPO) in world models, a framework that unifies search and policy optimization through diffusion policy representations, thereby unlocking the potential of world models for scalable policy learning. Instead of constructing an explicit planner over a learned world model, we reformulate policy optimization as a diffusion process over searched trajectories in latent world models. In this view, we extract an implicit energy function from the collected dataset that anchors the policy, enabling MBDPO to refine the score field for policy optimization while mitigating misalignment. We evaluate MBDPO across a wide range of settings, including multi-task offline pretraining, online learning, and offline-to-online fine-tuning. In the offline regime, we further investigate its scaling behavior by pretraining on large-scale datasets, observing consistent and monotonic performance gains with increasing model capacity.
- Abstract(参考訳): モデルベース強化学習(RL)は,世界モデルを用いて,大規模に効果的に支援することができる。
しかし、実際にはそのようなアプローチのスケーリングは基本的に制限されている。
一般的に知られている課題はモデルバイアスとエラー複合であり、長軸予測を劣化させる。
既存の世界モデルアプローチにおける、検索と価値学習の間の構造的ミスアライメントです。
特に、政策改善は、しばしば独立した非探索政策によって引き起こされる価値関数に依存し、結果としてトレーニングの不整合と究極的には準最適学習をもたらす。
この制限に対処するため,世界モデルにおけるモデルベース拡散政策最適化(MBDPO)を提案する。
学習された世界モデルの上に明確なプランナーを構築する代わりに、潜在世界モデルにおいて探索された軌道上での拡散プロセスとしてポリシー最適化を再構成する。
そこで本研究では,ポリシをアンカーする収集データセットから暗黙のエネルギー関数を抽出し,ミスアライメントを緩和しながら,MBDPOがポリシー最適化のためのスコアフィールドを洗練できるようにする。
MBDPOは、マルチタスクのオフライン事前トレーニング、オンライン学習、オフラインからオンラインまでの微調整など、幅広い設定で評価する。
オフライン環境では,大規模データセットを事前学習し,モデル容量の増加に伴う一貫した,単調な性能向上を観察することにより,スケーリングの挙動をさらに解明する。
関連論文リスト
- Model Predictive Control with Differentiable World Models for Offline Reinforcement Learning [17.293286354647716]
モデル予測制御(MPC)にインスパイアされた推論時間適応フレームワークを提案する。
ポリシーパラメータを最適化するために推定時情報を利用すると、強いオフラインRLベースラインよりも一貫した利得が得られることを示す。
論文 参考訳(メタデータ) (2026-03-23T18:05:29Z) - Bootstrap Off-policy with World Model [59.129118672069644]
ブートストラップループを通じて計画と非政治学習を緊密に統合するフレームワークであるBOOMを提案する。
BOOMは、トレーニングの安定性と最終的なパフォーマンスの両方において、最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-11-01T06:33:04Z) - Policy-Driven World Model Adaptation for Robust Offline Model-based Reinforcement Learning [6.189693079685375]
オフラインモデルベースRL(MBRL)は、静的データセットからワールドモデルを明示的に学習する。
政策とともに世界モデルを動的に適用する枠組みを提案する。
我々は,D4RL MuJoCoタスク12件とTokamak Controlタスク3件のアルゴリズムをベンチマークし,その最先端性能を実証した。
論文 参考訳(メタデータ) (2025-05-19T20:14:33Z) - Model-Based Offline Reinforcement Learning with Adversarial Data Augmentation [36.9134885948595]
本稿では,AdversariaLデータ拡張を用いたモデルベースオフライン強化学習について紹介する。
MoRALでは,エンサンブルモデルと交互サンプリングを行うために,エンサンブルデータ拡張を用いて固定水平線ロールアウトを置き換える。
D4RLベンチマークの実験では、MORALはポリシー学習やサンプル効率の観点から、他のモデルベースのオフラインRLメソッドよりも優れていた。
論文 参考訳(メタデータ) (2025-03-26T07:24:34Z) - Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [79.2162092822111]
我々は,一連のナビゲーションタスクにおいて,強化学習(RL)と制御に基づく手法を体系的に評価する。
我々は、JEPA(Joint Embedding Predictive Architecture)を使用して、潜在ダイナミクスモデルを使用し、それを計画に使用します。
その結果,モデルベースプランニングではレイアウトが不明瞭になるのに対して,モデルフリーのRLは高品質なデータから恩恵を受けることがわかった。
論文 参考訳(メタデータ) (2025-02-20T18:39:41Z) - Learning from Random Demonstrations: Offline Reinforcement Learning with Importance-Sampled Diffusion Models [19.05224410249602]
閉ループポリシー評価と世界モデル適応を用いたオフライン強化学習のための新しい手法を提案する。
提案手法の性能を解析し,提案手法と実環境とのリターンギャップに上限を設けた。
論文 参考訳(メタデータ) (2024-05-30T09:34:31Z) - World Models via Policy-Guided Trajectory Diffusion [21.89154719069519]
既存の世界モデルは、次の状態を予測するために、ポリシーから次のアクションをサンプリングする、自己回帰的である。
本稿では, 自己回帰的でない新しい世界モデリング手法を提案する。
論文 参考訳(メタデータ) (2023-12-13T21:46:09Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。