論文の概要: WMPO: World Model-based Policy Optimization for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2511.09515v1
- Date: Thu, 13 Nov 2025 01:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.605813
- Title: WMPO: World Model-based Policy Optimization for Vision-Language-Action Models
- Title(参考訳): WMPO:ビジョンランゲージ・アクションモデルのための世界モデルに基づく政策最適化
- Authors: Fangqi Zhu, Zhengyang Yan, Zicong Hong, Quanxin Shou, Xiao Ma, Song Guo,
- Abstract要約: VLA(Vision-Language-Action)モデルは汎用ロボット操作の強力な可能性を示している。
WMPO(World-Model-based Policy Optimization)は、実環境と対話することなく、オンラインVLAのための原則的フレームワークである。
- 参考スコア(独自算出の注目度): 22.01666177489494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models have shown strong potential for general-purpose robotic manipulation, but their reliance on expert demonstrations limits their ability to learn from failures and perform self-corrections. Reinforcement learning (RL) addresses these through self-improving interactions with the physical environment, but suffers from high sample complexity on real robots. We introduce World-Model-based Policy Optimization (WMPO), a principled framework for on-policy VLA RL without interacting with the real environment. In contrast to widely used latent world models, WMPO focuses on pixel-based predictions that align the "imagined" trajectories with the VLA features pretrained with web-scale images. Crucially, WMPO enables the policy to perform on-policy GRPO that provides stronger performance than the often-used off-policy methods. Extensive experiments in both simulation and real-robot settings demonstrate that WMPO (i) substantially improves sample efficiency, (ii) achieves stronger overall performance, (iii) exhibits emergent behaviors such as self-correction, and (iv) demonstrates robust generalization and lifelong learning capabilities.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、汎用ロボット操作の強力な可能性を示しているが、専門家によるデモンストレーションへの依存は、失敗から学び、自己補正を行う能力を制限している。
強化学習(RL)は、物理的環境との自己改善的な相互作用を通じてこれらに対処するが、実際のロボットでは高いサンプルの複雑さに悩まされる。
WMPO(World-Model-based Policy Optimization)は、実環境と対話することなく、オンラインVLA RLの原則的フレームワークである。
広く使われている潜在世界モデルとは対照的に、WMPOは「想像された」軌跡とWebスケールの画像で事前訓練されたVLA特徴とを一致させるピクセルベースの予測に焦点を当てている。
重要な点として、WMPOは、しばしば使用されるオフ・ポリティィ法よりも強力なパフォーマンスを提供する、オン・ポリティィGRPOの実行を可能にする。
WMPOのシミュレーションと実ロボット設定における大規模な実験
i) 試料効率を大幅に改善する。
(ii)全体的なパフォーマンスが向上する。
(三)自己訂正等の突発的な行動を示すこと、
(iv)は、堅牢な一般化と生涯学習能力を示す。
関連論文リスト
- Learning Generalizable Visuomotor Policy through Dynamics-Alignment [13.655111993491674]
ビデオ予測モデルを利用した最近のアプローチは、大規模データセットからリッチな表現を学習することで、有望な結果を示している。
本稿では,ダイナミックス予測をポリシ学習に統合するDAP(Dynamics-Aligned Flow Matching Policy)を提案する。
提案手法では,ポリシーモデルと動的モデルが相互に行動生成のフィードバックを与え,自己補正を実現し,一般化を向上するアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-10-31T02:29:33Z) - LaDi-WM: A Latent Diffusion-based World Model for Predictive Manipulation [45.02469804709771]
拡散モデルを用いて将来の状態の潜伏空間を予測する世界モデルLaDi-WMを提案する。
LIBERO-LONGベンチマークでは,LaDi-WMが27.9%,現実シナリオでは20%,政策性能が著しく向上することを示した。
論文 参考訳(メタデータ) (2025-05-13T04:42:14Z) - Strengthening Generative Robot Policies through Predictive World Modeling [25.45350191178106]
生成予測制御(英: Generative predictive Control、GPC)は、専門家による実証から生成拡散ベースのポリシーをクローンする学習制御フレームワークである。
GPCは、状態ベースの設定と視覚ベースの設定の両方において、振舞いのクローンを一貫して上回っている。
論文 参考訳(メタデータ) (2025-02-02T01:21:19Z) - Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。
スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - ReCoRe: Regularized Contrastive Representation Learning of World Model [21.29132219042405]
対照的な教師なし学習と介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。
提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。
論文 参考訳(メタデータ) (2023-12-14T15:53:07Z) - Addressing Optimism Bias in Sequence Modeling for Reinforcement Learning [5.09191791549438]
最近の研究は、主に決定論的なオフラインAtariとD4RLベンチマークにおいて、最先端の結果を達成した。
本稿では,この楽観主義バイアスに対処する手法を提案する。
シミュレーションにおいて,様々な自律運転タスクにおいて,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-21T04:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。