論文の概要: Ctrl-World: A Controllable Generative World Model for Robot Manipulation
- arxiv url: http://arxiv.org/abs/2510.10125v1
- Date: Sat, 11 Oct 2025 09:13:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 20:23:38.92451
- Title: Ctrl-World: A Controllable Generative World Model for Robot Manipulation
- Title(参考訳): Ctrl-World:ロボット操作のための制御可能な生成可能世界モデル
- Authors: Yanjiang Guo, Lucy Xiaoyang Shi, Jianyu Chen, Chelsea Finn,
- Abstract要約: 汎用ロボットポリシーは、幅広い操作スキルを実行することができる。
未知の物体や命令で 彼らの能力を評価し 改善することは 重要な課題です
世界モデルは、イマジネーション空間内でポリシーの展開を可能にすることで、有望でスケーラブルな代替手段を提供する。
- 参考スコア(独自算出の注目度): 53.71061464925014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalist robot policies can now perform a wide range of manipulation skills, but evaluating and improving their ability with unfamiliar objects and instructions remains a significant challenge. Rigorous evaluation requires a large number of real-world rollouts, while systematic improvement demands additional corrective data with expert labels. Both of these processes are slow, costly, and difficult to scale. World models offer a promising, scalable alternative by enabling policies to rollout within imagination space. However, a key challenge is building a controllable world model that can handle multi-step interactions with generalist robot policies. This requires a world model compatible with modern generalist policies by supporting multi-view prediction, fine-grained action control, and consistent long-horizon interactions, which is not achieved by previous works. In this paper, we make a step forward by introducing a controllable multi-view world model that can be used to evaluate and improve the instruction-following ability of generalist robot policies. Our model maintains long-horizon consistency with a pose-conditioned memory retrieval mechanism and achieves precise action control through frame-level action conditioning. Trained on the DROID dataset (95k trajectories, 564 scenes), our model generates spatially and temporally consistent trajectories under novel scenarios and new camera placements for over 20 seconds. We show that our method can accurately rank policy performance without real-world robot rollouts. Moreover, by synthesizing successful trajectories in imagination and using them for supervised fine-tuning, our approach can improve policy success by 44.7\%.
- Abstract(参考訳): 汎用的なロボットポリシーは、今や幅広い操作スキルを発揮できるが、不慣れなオブジェクトや命令でそれらの能力を評価し、改善することは、依然として大きな課題である。
厳格な評価には多数の実世界のロールアウトが必要ですが、体系的な改善には専門家ラベルによる追加の修正データが必要です。
これらのプロセスはどちらも遅く、コストがかかり、スケールが難しい。
世界モデルは、イマジネーション空間内でポリシーの展開を可能にすることで、有望でスケーラブルな代替手段を提供する。
しかし、重要な課題は、汎用的なロボットポリシーとマルチステップインタラクションを処理できるコントロール可能な世界モデルを構築することである。
これは、マルチビュー予測、きめ細かいアクション制御、一貫性のあるロングホライゾン相互作用をサポートすることで、現代のジェネラリストポリシーと互換性のある世界モデルを必要とするが、これは以前の研究では達成されなかった。
本稿では,汎用ロボットポリシーの指示追従能力の評価と改善に使用できる,制御可能な多視点世界モデルを導入することで,一歩進める。
本モデルは,ポーズ条件付きメモリ検索機構との長期的整合性を維持し,フレームレベルの動作条件設定による高精度な動作制御を実現する。
DROIDデータセット(95k trajectories, 564 scene)に基づいて、新しいシナリオと20秒以上のカメラ配置の下で、空間的および時間的に一貫した軌跡を生成する。
本研究では,実際のロボットのロールアウトを行なわずに,ポリシー性能を正確にランク付けできることを示す。
さらに, 達成軌道を想像力で合成し, 教師付き微調整に利用することにより, 政策成功率を44.7%向上させることができる。
関連論文リスト
- WorldGym: World Model as An Environment for Policy Evaluation [41.204900701616914]
WorldGymは、実環境のプロキシとして機能する自動回帰、アクション条件付きビデオ生成モデルである。
ポリシーはモンテカルロの世界モデルによるロールアウトを通じて評価され、視覚言語モデルが報酬を提供する。
We show that WorldGym can maintain relative policy rankings across different policy version, sizes, and training checkpoints。
論文 参考訳(メタデータ) (2025-05-31T15:51:56Z) - WorldEval: World Model as Real-World Robot Policies Evaluator [13.899692171641066]
重要な課題は、ロボットのアクションを忠実に反映した世界モデルから正確なポリシービデオを生成することだ。
本稿では,ビデオ生成モデルをロボットビデオを生成するための潜在動作に従う世界シミュレータに変換するための,シンプルで効果的な手法であるPolyse2Vecを提案する。
次に、実世界のロボットポリシーをオンラインで完全に評価するために設計された、自動パイプラインであるWorldEvalを紹介します。
論文 参考訳(メタデータ) (2025-05-25T07:41:39Z) - Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。
スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - IRASim: A Fine-Grained World Model for Robot Manipulation [24.591694756757278]
本稿では,ロボットとオブジェクトのインタラクションの詳細を詳細に表現したビデオを生成する新しい世界モデルIRASimを提案する。
拡散変圧器を訓練し、各変圧器ブロック内に新しいフレームレベル動作条件モジュールを導入し、アクションフレームアライメントを明示的にモデル化し強化する。
論文 参考訳(メタデータ) (2024-06-20T17:50:16Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。