論文の概要: Evaluating Gemini Robotics Policies in a Veo World Simulator
- arxiv url: http://arxiv.org/abs/2512.10675v1
- Date: Thu, 11 Dec 2025 14:22:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.408243
- Title: Evaluating Gemini Robotics Policies in a Veo World Simulator
- Title(参考訳): Veo World Simulatorにおけるジェミニロボティクス政策の評価
- Authors: Gemini Robotics Team, Coline Devin, Yilun Du, Debidatta Dwibedi, Ruiqi Gao, Abhishek Jindal, Thomas Kipf, Sean Kirmani, Fangchen Liu, Anirudha Majumdar, Andrew Marmon, Carolina Parada, Yulia Rubanova, Dhruv Shah, Vikas Sindhwani, Jie Tan, Fei Xia, Ted Xiao, Sherry Yang, Wenhao Yu, Allan Zhou,
- Abstract要約: 我々はフロンティアビデオ基盤モデル(Veo)に基づく生成的評価システムを導入する。
このシステムは、ロボットアクションコンディショニングとマルチビュー一貫性をサポートするよう最適化されている。
我々は、Gemini Roboticsのポリシーチェックポイント8つと、バイマニュアルマニピュレータのための5つのタスクの1600以上の実世界の評価を通じて、これらの能力を検証した。
- 参考スコア(独自算出の注目度): 69.23071832313246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative world models hold significant potential for simulating interactions with visuomotor policies in varied environments. Frontier video models can enable generation of realistic observations and environment interactions in a scalable and general manner. However, the use of video models in robotics has been limited primarily to in-distribution evaluations, i.e., scenarios that are similar to ones used to train the policy or fine-tune the base video model. In this report, we demonstrate that video models can be used for the entire spectrum of policy evaluation use cases in robotics: from assessing nominal performance to out-of-distribution (OOD) generalization, and probing physical and semantic safety. We introduce a generative evaluation system built upon a frontier video foundation model (Veo). The system is optimized to support robot action conditioning and multi-view consistency, while integrating generative image-editing and multi-view completion to synthesize realistic variations of real-world scenes along multiple axes of generalization. We demonstrate that the system preserves the base capabilities of the video model to enable accurate simulation of scenes that have been edited to include novel interaction objects, novel visual backgrounds, and novel distractor objects. This fidelity enables accurately predicting the relative performance of different policies in both nominal and OOD conditions, determining the relative impact of different axes of generalization on policy performance, and performing red teaming of policies to expose behaviors that violate physical or semantic safety constraints. We validate these capabilities through 1600+ real-world evaluations of eight Gemini Robotics policy checkpoints and five tasks for a bimanual manipulator.
- Abstract(参考訳): 生成的世界モデルは、様々な環境におけるビジュモータポリシーとの相互作用をシミュレートする大きな可能性を秘めている。
フロンティアビデオモデルは、スケーラブルで一般的な方法で、現実的な観察と環境相互作用の生成を可能にする。
しかしながら、ロボット工学におけるビデオモデルの使用は、主に配信内評価、すなわち、ポリシーのトレーニングやベースビデオモデルの微調整に使用されるシナリオに限られている。
本稿では,ロボット工学における政策評価用ユースケースのスペクトル全体に対して,ビデオモデルを用いることで,名目性能の評価からアウト・オブ・ディストリビューション(OOD)の一般化,物理的および意味論的安全性の探索に至るまで,ビデオモデルが利用可能であることを実証する。
本稿では,フロンティアビデオ基盤モデル(Veo)に基づく生成的評価システムを提案する。
ロボットのアクションコンディショニングとマルチビュー整合性をサポートしつつ、生成画像編集とマルチビューコンプリートを統合して、一般化の複数の軸に沿って現実のシーンの現実的なバリエーションを合成する。
本システムは,映像モデルの基本能力を保ち,新たなインタラクションオブジェクト,新しい視覚的背景,新しいイントラクタオブジェクトを含むように編集されたシーンの正確なシミュレーションを可能にする。
この忠実度は、名目およびOOD条件の両方で異なるポリシーの相対的性能を正確に予測し、一般化の異なる軸の相対的影響を政策性能に決定し、物理的または意味的安全制約に違反した行動を公開するためにポリシーのレッド・チーム化を行う。
我々は、Gemini Roboticsのポリシーチェックポイント8つと、バイマニュアルマニピュレータのための5つのタスクの1600以上の実世界の評価を通じて、これらの能力を検証した。
関連論文リスト
- RobotArena $\infty$: Scalable Robot Benchmarking via Real-to-Sim Translation [47.79800816696372]
操作ポリシーの現実的なテストは、大規模に労働集約的で、再現が難しい。
既存のシミュレーションベンチマークも同様に制限されており、同じ合成ドメイン内でポリシーをトレーニングおよびテストしている。
本稿では,VLA評価を大規模にシミュレーションした拡張環境に移行することで,これらの課題を克服する新しいベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-27T17:41:38Z) - WorldGym: World Model as An Environment for Policy Evaluation [41.204900701616914]
WorldGymは、実環境のプロキシとして機能する自動回帰、アクション条件付きビデオ生成モデルである。
ポリシーはモンテカルロの世界モデルによるロールアウトを通じて評価され、視覚言語モデルが報酬を提供する。
We show that WorldGym can maintain relative policy rankings across different policy version, sizes, and training checkpoints。
論文 参考訳(メタデータ) (2025-05-31T15:51:56Z) - IRASim: A Fine-Grained World Model for Robot Manipulation [24.591694756757278]
本稿では,ロボットとオブジェクトのインタラクションの詳細を詳細に表現したビデオを生成する新しい世界モデルIRASimを提案する。
拡散変圧器を訓練し、各変圧器ブロック内に新しいフレームレベル動作条件モジュールを導入し、アクションフレームアライメントを明示的にモデル化し強化する。
論文 参考訳(メタデータ) (2024-06-20T17:50:16Z) - Evaluating Real-World Robot Manipulation Policies in Simulation [91.55267186958892]
実環境と模擬環境の制御と視覚的格差は、信頼性のある模擬評価の鍵となる課題である。
実環境に完全忠実なデジタル双生児を作らなくても、これらのギャップを軽減できる手法を提案する。
シミュレーション環境の集合体であるSIMPLERを作成した。
論文 参考訳(メタデータ) (2024-05-09T17:30:16Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。