論文の概要: World4RL: Diffusion World Models for Policy Refinement with Reinforcement Learning for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2509.19080v1
- Date: Tue, 23 Sep 2025 14:38:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.896181
- Title: World4RL: Diffusion World Models for Policy Refinement with Reinforcement Learning for Robotic Manipulation
- Title(参考訳): World4RL:ロボットマニピュレーションのための強化学習による政策強化のための拡散世界モデル
- Authors: Zhennan Jiang, Kai Liu, Yuxin Qin, Shuai Tian, Yupeng Zheng, Mingcai Zhou, Chao Yu, Haoran Li, Dongbin Zhao,
- Abstract要約: 我々は,ロボット操作のための事前学習ポリシーを洗練させるために,拡散型世界モデルを高忠実度シミュレータとして利用するフレームワーク World4RL を提案する。
World4RLは、高忠実な環境モデリングを提供し、一貫したポリシー改善を可能にし、模倣学習に比べて成功率を大幅に向上させる。
- 参考スコア(独自算出の注目度): 23.270985761700203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robotic manipulation policies are commonly initialized through imitation learning, but their performance is limited by the scarcity and narrow coverage of expert data. Reinforcement learning can refine polices to alleviate this limitation, yet real-robot training is costly and unsafe, while training in simulators suffers from the sim-to-real gap. Recent advances in generative models have demonstrated remarkable capabilities in real-world simulation, with diffusion models in particular excelling at generation. This raises the question of how diffusion model-based world models can be combined to enhance pre-trained policies in robotic manipulation. In this work, we propose World4RL, a framework that employs diffusion-based world models as high-fidelity simulators to refine pre-trained policies entirely in imagined environments for robotic manipulation. Unlike prior works that primarily employ world models for planning, our framework enables direct end-to-end policy optimization. World4RL is designed around two principles: pre-training a diffusion world model that captures diverse dynamics on multi-task datasets and refining policies entirely within a frozen world model to avoid online real-world interactions. We further design a two-hot action encoding scheme tailored for robotic manipulation and adopt diffusion backbones to improve modeling fidelity. Extensive simulation and real-world experiments demonstrate that World4RL provides high-fidelity environment modeling and enables consistent policy refinement, yielding significantly higher success rates compared to imitation learning and other baselines. More visualization results are available at https://world4rl.github.io/.
- Abstract(参考訳): ロボット操作ポリシーは、模倣学習によって一般的に初期化されるが、その性能は専門家データの不足と狭い範囲によって制限される。
強化学習は、この制限を緩和するために警察を洗練させるが、実際のロボット訓練は費用がかかり、安全ではない。
生成モデルの最近の進歩は、実世界のシミュレーションにおいて顕著な能力を示しており、特に拡散モデルは世代において優れている。
このことは、ロボット操作における事前訓練されたポリシーを強化するために、拡散モデルに基づく世界モデルをどのように組み合わせることができるのかという疑問を提起する。
本研究では,拡散型世界モデルを高忠実度シミュレータとして利用し,ロボット操作のための想像上の環境において,事前学習されたポリシーを完全に洗練するフレームワークであるWorld4RLを提案する。
計画に世界モデルを主に用いた従来の作業とは異なり、我々のフレームワークはエンドツーエンドのポリシー最適化を可能にします。
World4RLは、マルチタスクデータセット上の多様なダイナミクスをキャプチャする拡散世界モデルの事前トレーニングと、オンラインの現実世界のインタラクションを避けるために、凍結世界モデル内でポリシーを完全に精錬する、という2つの原則に基づいて設計されている。
さらに,ロボット操作に適した2ホット動作符号化方式を設計し,モデリング精度を向上させるために拡散バックボーンを採用した。
大規模なシミュレーションと実世界の実験により、World4RLは高忠実な環境モデリングを提供し、一貫した政策改善を可能にし、模倣学習やその他のベースラインと比べて成功率を大幅に向上させることを示した。
さらなる視覚化結果はhttps://world4rl.github.io/.com/で公開されている。
関連論文リスト
- GWM: Towards Scalable Gaussian World Models for Robotic Manipulation [53.51622803589185]
本稿では,ロボット操作のための世界モデルGawssian World Model (GWM)を提案する。
中心となるのは、潜伏拡散変換器(DiT)と3次元変分オートエンコーダを組み合わせることで、微粒なシーンレベルの将来の状態復元を可能にする。
シミュレーションと実世界の実験の両方で、GWMは多様なロボットのアクションに照らされた未来のシーンを正確に予測できる。
論文 参考訳(メタデータ) (2025-08-25T02:01:09Z) - Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator [50.191655141020505]
強化学習(Reinforcement Learning, RL)は、ロボット制御において目覚ましい能力を示してきたが、高いサンプルの複雑さ、安全性の懸念、そしてシム・トゥ・リアルのギャップのため、依然として困難である。
物理シミュレータに頼らずに政策学習を改善するために不確実性を明示的に推定するモデルベースアプローチであるオフラインロボット世界モデル(RWM-O)を導入する。
論文 参考訳(メタデータ) (2025-04-23T12:58:15Z) - Accelerating Model-Based Reinforcement Learning with State-Space World Models [18.71404724458449]
強化学習(Reinforcement Learning, RL)は、ロボット学習における強力なアプローチである。
しかし、モデルフリーRL(MFRL)は、制御ポリシーをうまく学習するために、多数の環境相互作用を必要とする。
状態空間世界モデルを用いたモデルベースRLの高速化手法を提案する。
論文 参考訳(メタデータ) (2025-02-27T15:05:25Z) - Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。
スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - World Models via Policy-Guided Trajectory Diffusion [21.89154719069519]
既存の世界モデルは、次の状態を予測するために、ポリシーから次のアクションをサンプリングする、自己回帰的である。
本稿では, 自己回帰的でない新しい世界モデリング手法を提案する。
論文 参考訳(メタデータ) (2023-12-13T21:46:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。