論文の概要: World-Gymnast: Training Robots with Reinforcement Learning in a World Model
- arxiv url: http://arxiv.org/abs/2602.02454v1
- Date: Mon, 02 Feb 2026 18:44:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.371595
- Title: World-Gymnast: Training Robots with Reinforcement Learning in a World Model
- Title(参考訳): World-Gymnast:世界モデルにおける強化学習ロボットの訓練
- Authors: Ansh Kumar Sharma, Yixiang Sun, Ninghao Lu, Yunzhe Zhang, Jiarao Liu, Sherry Yang,
- Abstract要約: 本稿では、アクション条件付きビデオワールドモデルにポリシーをロールアウトすることで、視覚言語アクションポリシーのRL微調整を行うWorld-Gymnastを提案する。
Bridgeロボットのセットアップでは、World-GymnastはSFTを最大18倍上回り、ソフトウェアシミュレータを最大2倍上回る。
我々の結果は、クラウドで世界モデルを学び、ロボットポリシーを訓練することが、デモで作業するロボットと、誰でも使えるロボットのギャップを埋める鍵になり得ることを示唆している。
- 参考スコア(独自算出の注目度): 4.491505634160759
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robot learning from interacting with the physical world is fundamentally bottlenecked by the cost of physical interaction. The two alternatives, supervised finetuning (SFT) from expert demonstrations and reinforcement learning (RL) in a software-based simulator, are limited by the amount of expert data available and the sim-to-real gap for manipulation. With the recent emergence of world models learned from real-world video-action data, we ask the question of whether training a policy in a world model can be more effective than supervised learning or software simulation in achieving better real-robot performance. We propose World-Gymnast, which performs RL finetuning of a vision-language-action (VLA) policy by rolling out the policy in an action-conditioned video world model and rewarding the rollouts with a vision-language model (VLM). On the Bridge robot setup, World-Gymnast outperforms SFT by as much as 18x and outperforms software simulator by as much as 2x. More importantly, World-Gymnast demonstrates intriguing capabilities of RL with a world model, including training on diverse language instructions and novel scenes from the world model, test-time training in a novel scene, and online iterative world model and policy improvement. Our results suggest learning a world model and training robot policies in the cloud could be the key to bridging the gap between robots that work in demonstrations and robots that can work in anyone's household.
- Abstract(参考訳): 物理的世界との相互作用から学ぶロボットは、物理的相互作用のコストによって基本的にボトルネックとなる。
ソフトウェアベースのシミュレーターにおける専門家によるデモンストレーションと強化学習(RL)からの教師付き微調整(SFT)は、利用可能な専門家データの量と操作のためのsim-to-realギャップによって制限される。
近年、実世界のビデオアクションデータから学習された世界モデルが出現し、より優れた実ロボット性能を実現する上で、教師付き学習やソフトウェアシミュレーションよりも、世界モデルにおけるポリシーのトレーニングの方が効果的かどうかを問う。
本稿では、アクション条件付きビデオワールドモデルでポリシーをロールアウトし、ビジョン言語モデル(VLM)でロールアウトを報奨することで、ビジョン言語アクション(VLA)ポリシーのRL微調整を行うWorld-Gymnastを提案する。
Bridgeロボットのセットアップでは、World-GymnastはSFTを最大18倍上回り、ソフトウェアシミュレータを最大2倍上回る。
さらに重要なのは、World-Gymnastが世界モデルによるRLの興味深い能力を示し、多様な言語指導と世界モデルからの斬新なシーンのトレーニング、新しいシーンでのテストタイムトレーニング、オンライン反復的な世界モデルと政策改善などである。
我々の結果は、クラウドで世界モデルを学び、ロボットポリシーを訓練することが、デモで作業するロボットと、誰でも使えるロボットのギャップを埋める鍵になり得ることを示唆している。
関連論文リスト
- Large Video Planner Enables Generalizable Robot Control [117.49024534548319]
汎用ロボットは、様々なタスクや環境にまたがって一般化する意思決定モデルを必要とする。
最近の研究は、マルチモーダル大言語モデル(LM)をアクション出力で拡張し、視覚-アクション(VLA)システムを構築することで、ロボット基盤モデルを構築している。
本稿では,ロボット基礎モデル構築における主要なモダリティとして,大規模ビデオ事前学習を用いるための代替パラダイムについて検討する。
論文 参考訳(メタデータ) (2025-12-17T18:35:54Z) - World4RL: Diffusion World Models for Policy Refinement with Reinforcement Learning for Robotic Manipulation [23.270985761700203]
我々は,ロボット操作のための事前学習ポリシーを洗練させるために,拡散型世界モデルを高忠実度シミュレータとして利用するフレームワーク World4RL を提案する。
World4RLは、高忠実な環境モデリングを提供し、一貫したポリシー改善を可能にし、模倣学習に比べて成功率を大幅に向上させる。
論文 参考訳(メタデータ) (2025-09-23T14:38:15Z) - WorldGym: World Model as An Environment for Policy Evaluation [41.204900701616914]
WorldGymは、実環境のプロキシとして機能する自動回帰、アクション条件付きビデオ生成モデルである。
ポリシーはモンテカルロの世界モデルによるロールアウトを通じて評価され、視覚言語モデルが報酬を提供する。
We show that WorldGym can maintain relative policy rankings across different policy version, sizes, and training checkpoints。
論文 参考訳(メタデータ) (2025-05-31T15:51:56Z) - Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。
スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments [26.66666135624716]
ゼロショットロボットポリシーのトレーニングとデプロイのためのフレームワークであるロボットユーティリティモデル(RUM)を提案する。
RUMは微調整なしで新しい環境に一般化できる。
キャビネットドアのオープン、引き出しのオープン、ナプキンのピックアップ、紙袋のピックアップ、転倒物の再配向の5つのユーティリティモデルを訓練する。
論文 参考訳(メタデータ) (2024-09-09T17:59:50Z) - robo-gym -- An Open Source Toolkit for Distributed Deep Reinforcement
Learning on Real and Simulated Robots [0.5161531917413708]
本稿では,ロボットによる深層強化学習を向上するためのオープンソースのツールキット,robo-gymを提案する。
シミュレーションにおけるトレーニングからロボットへのシームレスな移動を可能にするシミュレーション環境と実環境の統一的なセットアップを実証する。
産業用ロボットを特徴とする2つの実世界アプリケーションを用いて,本フレームワークの能力と有効性を示す。
論文 参考訳(メタデータ) (2020-07-06T13:51:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。