論文の概要: WorldGym: World Model as An Environment for Policy Evaluation
- arxiv url: http://arxiv.org/abs/2506.00613v3
- Date: Tue, 30 Sep 2025 03:34:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 19:34:21.393085
- Title: WorldGym: World Model as An Environment for Policy Evaluation
- Title(参考訳): WorldGym: 政策評価環境としての世界モデル
- Authors: Julian Quevedo, Ansh Kumar Sharma, Yixiang Sun, Varad Suryavanshi, Percy Liang, Sherry Yang,
- Abstract要約: WorldGymは、実環境のプロキシとして機能する自動回帰、アクション条件付きビデオ生成モデルである。
ポリシーはモンテカルロの世界モデルによるロールアウトを通じて評価され、視覚言語モデルが報酬を提供する。
We show that WorldGym can maintain relative policy rankings across different policy version, sizes, and training checkpoints。
- 参考スコア(独自算出の注目度): 41.204900701616914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating robot control policies is difficult: real-world testing is costly, and handcrafted simulators require manual effort to improve in realism and generality. We propose a world-model-based policy evaluation environment (WorldGym), an autoregressive, action-conditioned video generation model which serves as a proxy to real world environments. Policies are evaluated via Monte Carlo rollouts in the world model, with a vision-language model providing rewards. We evaluate a set of VLA-based real-robot policies in the world model using only initial frames from real robots, and show that policy success rates within the world model highly correlate with real-world success rates. Moreoever, we show that WorldGym is able to preserve relative policy rankings across different policy versions, sizes, and training checkpoints. Due to requiring only a single start frame as input, the world model further enables efficient evaluation of robot policies' generalization ability on novel tasks and environments. We find that modern VLA-based robot policies still struggle to distinguish object shapes and can become distracted by adversarial facades of objects. While generating highly realistic object interaction remains challenging, WorldGym faithfully emulates robot motions and offers a practical starting point for safe and reproducible policy evaluation before deployment.
- Abstract(参考訳): 実世界のテストはコストがかかり、手作りのシミュレータは現実性と一般性を改善するために手作業を必要とする。
本稿では,実環境のプロキシとして機能する自己回帰型行動条件付きビデオ生成モデルであるWorldGymを提案する。
ポリシーはモンテカルロの世界モデルによるロールアウトを通じて評価され、視覚言語モデルが報酬を提供する。
実ロボットの初期フレームのみを用いて,VLAベースの実ロボットポリシーを世界モデルで評価し,世界モデルにおける政策成功率と実世界の成功率との相関性を示す。
さらに、WorldGymは、異なるポリシーバージョン、サイズ、およびトレーニングチェックポイントの相対的なポリシーランキングを維持することができることを示す。
入力として1つのスタートフレームしか必要としないため、ワールドモデルは新たなタスクや環境におけるロボットポリシーの一般化能力の効率的な評価を可能にする。
現代のVLAベースのロボットポリシーは、オブジェクトの形状を区別するのに依然として苦労しており、オブジェクトの敵のファサードに邪魔される可能性がある。
非常に現実的なオブジェクトインタラクションを生成することは依然として難しいが、WorldGymはロボットの動きを忠実にエミュレートし、デプロイ前に安全かつ再現可能なポリシー評価のための実践的な出発点を提供する。
関連論文リスト
- WorldEval: World Model as Real-World Robot Policies Evaluator [13.899692171641066]
重要な課題は、ロボットのアクションを忠実に反映した世界モデルから正確なポリシービデオを生成することだ。
本稿では,ビデオ生成モデルをロボットビデオを生成するための潜在動作に従う世界シミュレータに変換するための,シンプルで効果的な手法であるPolyse2Vecを提案する。
次に、実世界のロボットポリシーをオンラインで完全に評価するために設計された、自動パイプラインであるWorldEvalを紹介します。
論文 参考訳(メタデータ) (2025-05-25T07:41:39Z) - Real-is-Sim: Bridging the Sim-to-Real Gap with a Dynamic Digital Twin for Real-World Robot Policy Evaluation [8.36634439225698]
本稿では,動的デジタルツインをポリシー開発パイプライン全体に組み込んだ行動クローニングフレームワークであるReal-is-simを提案する。
我々は、PushT操作タスクにおける実数値を検証し、シミュレータで得られた成功率と実世界の評価との間に強い相関関係を示す。
論文 参考訳(メタデータ) (2025-04-04T17:05:56Z) - Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。
スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - WorldSimBench: Towards Video Generation Models as World Simulators [79.69709361730865]
我々は、予測モデルの機能を階層に分類し、WorldSimBenchと呼ばれる2つの評価フレームワークを提案することにより、World Simulatorの評価の第一歩を踏み出す。
WorldSimBenchにはExplicit Perceptual EvaluationとImplicit Manipulative Evaluationが含まれている。
我々の総合的な評価は、ビデオ生成モデルのさらなる革新を促進する重要な洞察を与え、World Simulatorsをエンボディされた人工知能への重要な進歩と位置づけている。
論文 参考訳(メタデータ) (2024-10-23T17:56:11Z) - GRAPPA: Generalizing and Adapting Robot Policies via Online Agentic Guidance [15.774237279917594]
本稿では,ロボットによる自己指導と自己改善のためのエージェントフレームワークを提案する。
本フレームワークは,環境中の関連オブジェクトに対して,ベースロボットポリシーを反復的に適用する。
弊社のアプローチは、操作ポリシーを効果的にガイドし、成功率を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2024-10-09T02:00:37Z) - IRASim: A Fine-Grained World Model for Robot Manipulation [24.591694756757278]
本稿では,ロボットとオブジェクトのインタラクションの詳細を詳細に表現したビデオを生成する新しい世界モデルIRASimを提案する。
拡散変圧器を訓練し、各変圧器ブロック内に新しいフレームレベル動作条件モジュールを導入し、アクションフレームアライメントを明示的にモデル化し強化する。
論文 参考訳(メタデータ) (2024-06-20T17:50:16Z) - Evaluating Real-World Robot Manipulation Policies in Simulation [91.55267186958892]
実環境と模擬環境の制御と視覚的格差は、信頼性のある模擬評価の鍵となる課題である。
実環境に完全忠実なデジタル双生児を作らなくても、これらのギャップを軽減できる手法を提案する。
シミュレーション環境の集合体であるSIMPLERを作成した。
論文 参考訳(メタデータ) (2024-05-09T17:30:16Z) - Robust Visual Sim-to-Real Transfer for Robotic Manipulation [79.66851068682779]
シミュレーションにおけるビジュモータポリシーの学習は、現実世界よりも安全で安価である。
しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。
視覚的なsim-to-real領域ギャップを埋める一般的なアプローチは、ドメインランダム化(DR)である。
論文 参考訳(メタデータ) (2023-07-28T05:47:24Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。