論文の概要: Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning
- arxiv url: http://arxiv.org/abs/2601.16163v1
- Date: Thu, 22 Jan 2026 18:09:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.687375
- Title: Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning
- Title(参考訳): コスモス政策 : ビジュモータ制御と計画のための微調整ビデオモデル
- Authors: Moo Jin Kim, Yihuai Gao, Tsung-Yi Lin, Yen-Chen Lin, Yunhao Ge, Grace Lam, Percy Liang, Shuran Song, Ming-Yu Liu, Chelsea Finn, Jinwei Gu,
- Abstract要約: 本研究では,大規模な事前学習ビデオモデルを効果的なロボットポリシーに適応するためのシンプルなアプローチであるコスモスポリシーを紹介する。
コスモスポリシーは、ビデオモデルの潜伏拡散プロセスの中で潜伏フレームとして符号化された直接ロボットアクションを生成することを学ぶ。
評価において,コスモスポリシはLIBEROとRoboCasaのシミュレーションベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 106.57043104902584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent video generation models demonstrate remarkable ability to capture complex physical interactions and scene evolution over time. To leverage their spatiotemporal priors, robotics works have adapted video models for policy learning but introduce complexity by requiring multiple stages of post-training and new architectural components for action generation. In this work, we introduce Cosmos Policy, a simple approach for adapting a large pretrained video model (Cosmos-Predict2) into an effective robot policy through a single stage of post-training on the robot demonstration data collected on the target platform, with no architectural modifications. Cosmos Policy learns to directly generate robot actions encoded as latent frames within the video model's latent diffusion process, harnessing the model's pretrained priors and core learning algorithm to capture complex action distributions. Additionally, Cosmos Policy generates future state images and values (expected cumulative rewards), which are similarly encoded as latent frames, enabling test-time planning of action trajectories with higher likelihood of success. In our evaluations, Cosmos Policy achieves state-of-the-art performance on the LIBERO and RoboCasa simulation benchmarks (98.5% and 67.1% average success rates, respectively) and the highest average score in challenging real-world bimanual manipulation tasks, outperforming strong diffusion policies trained from scratch, video model-based policies, and state-of-the-art vision-language-action models fine-tuned on the same robot demonstrations. Furthermore, given policy rollout data, Cosmos Policy can learn from experience to refine its world model and value function and leverage model-based planning to achieve even higher success rates in challenging tasks. We release code, models, and training data at https://research.nvidia.com/labs/dir/cosmos-policy/
- Abstract(参考訳): 最近のビデオ生成モデルは、時間とともに複雑な物理的相互作用とシーンの進化を捉える素晴らしい能力を示している。
ロボット工学は、その時空間的優位性を活用するために、ポリシー学習のためにビデオモデルを適応させたが、ポストトレーニングの複数の段階とアクション生成のための新しいアーキテクチャコンポーネントを必要とし、複雑さを導入している。
本研究では,大規模な事前学習ビデオモデル(Cosmos-Predict2)を,対象プラットフォーム上で収集したロボットデモデータに対する1段階のポストトレーニングを通じて,効果的なロボットポリシーに適応するためのシンプルなアプローチであるCosmos Policyを紹介する。
Cosmos Policyは、ビデオモデルの潜伏拡散プロセス内で、潜伏フレームとして符号化されたロボットアクションを直接生成することを学び、モデルの事前訓練された事前とコア学習アルゴリズムを利用して複雑なアクション分布をキャプチャする。
さらに、コスモス・ポリシーは将来の状態画像と値(予測累積報酬)を生成し、これは同様に遅延フレームとして符号化され、より高い成功率で行動軌跡のテスト時計画を可能にする。
評価では、LIBEROとRoboCasaのシミュレーションベンチマーク(平均成功率98.5%、平均成功率67.1%)における最先端のパフォーマンスを達成し、実世界の双方向操作タスクにおける最高スコアを達成し、スクラッチから訓練された強力な拡散ポリシー、ビデオモデルベースのポリシー、そして同じロボットデモで微調整された最先端の視覚言語モデルよりも優れていた。
さらに、ポリシーのロールアウトデータから、コスモス・ポリシーは経験から世界モデルと価値機能を洗練し、モデルベースの計画を活用して、挑戦的なタスクでさらに高い成功率を達成することができる。
コード、モデル、トレーニングデータをhttps://research.nvidia.com/labs/dir/cosmos-policy/でリリースします。
関連論文リスト
- Ctrl-World: A Controllable Generative World Model for Robot Manipulation [53.71061464925014]
汎用ロボットポリシーは、幅広い操作スキルを実行することができる。
未知の物体や命令で 彼らの能力を評価し 改善することは 重要な課題です
世界モデルは、イマジネーション空間内でポリシーの展開を可能にすることで、有望でスケーラブルな代替手段を提供する。
論文 参考訳(メタデータ) (2025-10-11T09:13:10Z) - Latent Action Pretraining Through World Modeling [1.988007188564225]
自己教師型手法で模倣学習モデルを事前学習するためのモデルに依存しないフレームワークであるLAWMを提案する。
当社のフレームワークは,タスクや環境,実施環境の移動に有効であるように設計されています。
論文 参考訳(メタデータ) (2025-09-22T21:19:10Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。