論文の概要: WoVR: World Models as Reliable Simulators for Post-Training VLA Policies with RL
- arxiv url: http://arxiv.org/abs/2602.13977v1
- Date: Sun, 15 Feb 2026 03:48:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.585461
- Title: WoVR: World Models as Reliable Simulators for Post-Training VLA Policies with RL
- Title(参考訳): WoVR:RLを使った後VLA政策のための信頼性の高いシミュレータとしての世界モデル
- Authors: Zhennan Jiang, Shangqing Zhou, Yutong Jiang, Zefang Huang, Mingjie Wei, Yuhui Chen, Tianxing Zhou, Zhen Guo, Hao Lin, Quanlu Zhang, Yu Wang, Haoran Li, Chao Yu, Dongbin Zhao,
- Abstract要約: 我々は、VLAポリシーの訓練後、信頼性の高い世界モデルに基づく強化学習フレームワークであるWoVRを提案する。
制御可能なアクション条件付きビデオワールドモデルによってロールアウト安定性を向上させる。
また、Keyframe-evolutiond Rolloutsによる効果的なエラー深度を低減するために、想像上のインタラクションを再確認する。
- 参考スコア(独自算出の注目度): 30.884160045861616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) promises to unlock capabilities beyond imitation learning for Vision-Language-Action (VLA) models, but its requirement for massive real-world interaction prevents direct deployment on physical robots. Recent work attempts to use learned world models as simulators for policy optimization, yet closed-loop imagined rollouts inevitably suffer from hallucination and long-horizon error accumulation. Such errors do not merely degrade visual fidelity; they corrupt the optimization signal, encouraging policies to exploit model inaccuracies rather than genuine task progress. We propose WoVR, a reliable world-model-based reinforcement learning framework for post-training VLA policies. Instead of assuming a faithful world model, WoVR explicitly regulates how RL interacts with imperfect imagined dynamics. It improves rollout stability through a controllable action-conditioned video world model, reshapes imagined interaction to reduce effective error depth via Keyframe-Initialized Rollouts, and maintains policy-simulator alignment through World Model-Policy co-evolution. Extensive experiments on LIBERO benchmarks and real-world robotic manipulation demonstrate that WoVR enables stable long-horizon imagined rollouts and effective policy optimization, improving average LIBERO success from 39.95% to 69.2% (+29.3 points) and real-robot success from 61.7% to 91.7% (+30.0 points). These results show that learned world models can serve as practical simulators for reinforcement learning when hallucination is explicitly controlled.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、VLA(Vision-Language-Action)モデルの模倣学習以外の機能をアンロックすることを約束するが、その大量の現実世界のインタラクションに対する要求は、物理的なロボットへの直接的なデプロイを妨げている。
最近の研究は、学習した世界モデルを政策最適化のシミュレータとして利用しようとするが、閉ループのロールアウトは必然的に幻覚と長い水平誤差の蓄積に悩まされる。
このようなエラーは単に視覚的忠実さを損なうだけでなく、最適化シグナルを破損させ、真のタスクの進行ではなく、モデル不正確さを悪用するようにポリシーを奨励する。
我々は、VLAポリシーの訓練後、信頼性の高い世界モデルに基づく強化学習フレームワークであるWoVRを提案する。
忠実な世界モデルを仮定する代わりに、WoVRはRLが不完全な想像力学とどのように相互作用するかを明示的に規定する。
コントロール可能なアクションコンディション付きビデオワールドモデルによるロールアウト安定性の向上、Keyframe-Initialized Rolloutsによる効果的なエラー深さの削減、World Model-Policyの共進化によるポリシシミュレータアライメントの維持。
LIBEROベンチマークと実世界のロボット操作に関する大規模な実験により、WoVRは安定した長距離展開と効果的なポリシー最適化を可能にし、平均LIBEROは39.95%から69.2%(+29.3ポイント)、実ロボットは61.7%から91.7%(+30.0ポイント)に改善した。
これらの結果は,幻覚が明示的に制御された場合,学習の世界モデルが強化学習の実践的シミュレータとして機能することが示唆された。
関連論文リスト
- World-Gymnast: Training Robots with Reinforcement Learning in a World Model [4.491505634160759]
本稿では、アクション条件付きビデオワールドモデルにポリシーをロールアウトすることで、視覚言語アクションポリシーのRL微調整を行うWorld-Gymnastを提案する。
Bridgeロボットのセットアップでは、World-GymnastはSFTを最大18倍上回り、ソフトウェアシミュレータを最大2倍上回る。
我々の結果は、クラウドで世界モデルを学び、ロボットポリシーを訓練することが、デモで作業するロボットと、誰でも使えるロボットのギャップを埋める鍵になり得ることを示唆している。
論文 参考訳(メタデータ) (2026-02-02T18:44:45Z) - WMPO: World Model-based Policy Optimization for Vision-Language-Action Models [22.01666177489494]
VLA(Vision-Language-Action)モデルは汎用ロボット操作の強力な可能性を示している。
WMPO(World-Model-based Policy Optimization)は、実環境と対話することなく、オンラインVLAのための原則的フレームワークである。
論文 参考訳(メタデータ) (2025-11-12T17:54:09Z) - Ctrl-World: A Controllable Generative World Model for Robot Manipulation [53.71061464925014]
汎用ロボットポリシーは、幅広い操作スキルを実行することができる。
未知の物体や命令で 彼らの能力を評価し 改善することは 重要な課題です
世界モデルは、イマジネーション空間内でポリシーの展開を可能にすることで、有望でスケーラブルな代替手段を提供する。
論文 参考訳(メタデータ) (2025-10-11T09:13:10Z) - VLA-RFT: Vision-Language-Action Reinforcement Fine-tuning with Verified Rewards in World Simulators [38.880852900641]
VLA(Vision-Language-Action)モデルは、具体的意思決定を可能にするが、模倣学習に大きく依存する。
制御可能なシミュレータとしてデータ駆動世界モデルを利用する強化微調整フレームワークであるVLA-RFTを紹介する。
400歩未満の微調整ステップで、VLA-RFTは強い教師付きベースラインを超え、シミュレータベースのRLよりも高い効率を達成する。
論文 参考訳(メタデータ) (2025-10-01T01:33:10Z) - World4RL: Diffusion World Models for Policy Refinement with Reinforcement Learning for Robotic Manipulation [23.270985761700203]
我々は,ロボット操作のための事前学習ポリシーを洗練させるために,拡散型世界モデルを高忠実度シミュレータとして利用するフレームワーク World4RL を提案する。
World4RLは、高忠実な環境モデリングを提供し、一貫したポリシー改善を可能にし、模倣学習に比べて成功率を大幅に向上させる。
論文 参考訳(メタデータ) (2025-09-23T14:38:15Z) - WorldGym: World Model as An Environment for Policy Evaluation [41.204900701616914]
WorldGymは、実環境のプロキシとして機能する自動回帰、アクション条件付きビデオ生成モデルである。
ポリシーはモンテカルロの世界モデルによるロールアウトを通じて評価され、視覚言語モデルが報酬を提供する。
We show that WorldGym can maintain relative policy rankings across different policy version, sizes, and training checkpoints。
論文 参考訳(メタデータ) (2025-05-31T15:51:56Z) - Video-Enhanced Offline Reinforcement Learning: A Model-Based Approach [55.76249793590689]
Video-Enhanced Offline RL (VeoRL) は、インタラクティブな世界モデルを構築するためのモデルベースの手法である。
VeoRLは、ロボット操作、自律運転、オープンワールドビデオゲームにおける視覚制御タスクにおいて、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-05-10T00:54:12Z) - Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator [50.191655141020505]
強化学習(Reinforcement Learning, RL)は、ロボット制御において目覚ましい能力を示してきたが、高いサンプルの複雑さ、安全性の懸念、そしてシム・トゥ・リアルのギャップのため、依然として困難である。
物理シミュレータに頼らずに政策学習を改善するために不確実性を明示的に推定するモデルベースアプローチであるオフラインロボット世界モデル(RWM-O)を導入する。
論文 参考訳(メタデータ) (2025-04-23T12:58:15Z) - Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。
スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。