論文の概要: World Simulation with Video Foundation Models for Physical AI
- arxiv url: http://arxiv.org/abs/2511.00062v1
- Date: Tue, 28 Oct 2025 22:44:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.55227
- Title: World Simulation with Video Foundation Models for Physical AI
- Title(参考訳): 物理AIのためのビデオ基礎モデルを用いた世界シミュレーション
- Authors: NVIDIA, :, Arslan Ali, Junjie Bai, Maciej Bala, Yogesh Balaji, Aaron Blakeman, Tiffany Cai, Jiaxin Cao, Tianshi Cao, Elizabeth Cha, Yu-Wei Chao, Prithvijit Chattopadhyay, Mike Chen, Yongxin Chen, Yu Chen, Shuai Cheng, Yin Cui, Jenna Diamond, Yifan Ding, Jiaojiao Fan, Linxi Fan, Liang Feng, Francesco Ferroni, Sanja Fidler, Xiao Fu, Ruiyuan Gao, Yunhao Ge, Jinwei Gu, Aryaman Gupta, Siddharth Gururani, Imad El Hanafi, Ali Hassani, Zekun Hao, Jacob Huffman, Joel Jang, Pooya Jannaty, Jan Kautz, Grace Lam, Xuan Li, Zhaoshuo Li, Maosheng Liao, Chen-Hsuan Lin, Tsung-Yi Lin, Yen-Chen Lin, Huan Ling, Ming-Yu Liu, Xian Liu, Yifan Lu, Alice Luo, Qianli Ma, Hanzi Mao, Kaichun Mo, Seungjun Nah, Yashraj Narang, Abhijeet Panaskar, Lindsey Pavao, Trung Pham, Morteza Ramezanali, Fitsum Reda, Scott Reed, Xuanchi Ren, Haonan Shao, Yue Shen, Stella Shi, Shuran Song, Bartosz Stefaniak, Shangkun Sun, Shitao Tang, Sameena Tasmeen, Lyne Tchapmi, Wei-Cheng Tseng, Jibin Varghese, Andrew Z. Wang, Hao Wang, Haoxiang Wang, Heng Wang, Ting-Chun Wang, Fangyin Wei, Jiashu Xu, Dinghao Yang, Xiaodong Yang, Haotian Ye, Seonghyeon Ye, Xiaohui Zeng, Jing Zhang, Qinsheng Zhang, Kaiwen Zheng, Andrew Zhu, Yuke Zhu,
- Abstract要約: 我々は,[Cosmos-Predict2.5]と[Cosmos-Transfer2.5]を,エンボディインテリジェンスをスケールするための汎用ツールとしてリリースする。
我々はNVIDIA Open Model Licenseの下で、ソースコード、事前訓練されたチェックポイント、およびキュレートされたベンチマークをリリースします。
- 参考スコア(独自算出の注目度): 181.78265691303315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce [Cosmos-Predict2.5], the latest generation of the Cosmos World Foundation Models for Physical AI. Built on a flow-based architecture, [Cosmos-Predict2.5] unifies Text2World, Image2World, and Video2World generation in a single model and leverages [Cosmos-Reason1], a Physical AI vision-language model, to provide richer text grounding and finer control of world simulation. Trained on 200M curated video clips and refined with reinforcement learning-based post-training, [Cosmos-Predict2.5] achieves substantial improvements over [Cosmos-Predict1] in video quality and instruction alignment, with models released at 2B and 14B scales. These capabilities enable more reliable synthetic data generation, policy evaluation, and closed-loop simulation for robotics and autonomous systems. We further extend the family with [Cosmos-Transfer2.5], a control-net style framework for Sim2Real and Real2Real world translation. Despite being 3.5$\times$ smaller than [Cosmos-Transfer1], it delivers higher fidelity and robust long-horizon video generation. Together, these advances establish [Cosmos-Predict2.5] and [Cosmos-Transfer2.5] as versatile tools for scaling embodied intelligence. To accelerate research and deployment in Physical AI, we release source code, pretrained checkpoints, and curated benchmarks under the NVIDIA Open Model License at https://github.com/nvidia-cosmos/cosmos-predict2.5 and https://github.com/nvidia-cosmos/cosmos-transfer2.5. We hope these open resources lower the barrier to adoption and foster innovation in building the next generation of embodied intelligence.
- Abstract(参考訳): 我々は,Cosmos World Foundation Models for Physical AIの最新世代である[Cosmos-Predict2.5]を紹介する。
フローベースのアーキテクチャに基づいて構築された[Cosmos-Predict2.5]は、Text2World、Image2World、Video2World生成を単一のモデルに統合し、物理的AIビジョン言語モデルである[Cosmos-Reason1]を活用して、よりリッチなテキストグラウンドとより細かい世界シミュレーション制御を提供する。
2Mのキュレートされたビデオクリップで訓練し、強化学習に基づくポストトレーニングで改良した[Cosmos-Predict2.5]は、[Cosmos-Predict1]よりもビデオ品質と命令アライメントが大幅に改善され、2Bと14Bのモデルがリリースされた。
これらの機能は、ロボット工学と自律システムのためのより信頼性の高い合成データ生成、ポリシー評価、クローズドループシミュレーションを可能にする。
我々はさらに、Sim2RealとReal2Realの世界翻訳のためのコントロールネットスタイルのフレームワークである[Cosmos-Transfer2.5]で家族を拡張した。
3.5$\times$が[Cosmos-Transfer1]より小さいにもかかわらず、高い忠実度と堅牢なロングホライゾンビデオ生成を提供する。
これらの進歩により、[Cosmos-Predict2.5] と [Cosmos-Transfer2.5] が、インボディードインテリジェンスをスケールするための汎用的なツールとして確立されました。
物理AIの研究と展開を加速するために、ソースコード、事前訓練されたチェックポイント、およびベンチマークをNVIDIA Open Model Licenseでhttps://github.com/nvidia-cosmos/cosmos-predict2.5とhttps://github.com/nvidia-cosmos/cosmos-transfer2.5でリリースしました。
これらのオープンリソースが、次世代のインテリジェンスを構築する上で、採用の障壁を低くし、イノベーションを促進することを願っています。
関連論文リスト
- Yume: An Interactive World Generation Model [38.818537395166835]
Yumeは、画像やテキスト、ビデオを使って対話的でリアルでダイナミックな世界を作る。
入力画像から動的世界を生成し、キーボードアクションを使って世界を探索することができる。
論文 参考訳(メタデータ) (2025-07-23T17:57:09Z) - GR00T N1: An Open Foundation Model for Generalist Humanoid Robots [133.23509142762356]
汎用ロボットには多目的体と知的な心が必要だ。
近年のヒューマノイドロボットの進歩は、汎用的な自律性を構築するためのハードウェアプラットフォームとして大きな可能性を秘めている。
我々はヒューマノイドロボットのオープン基盤モデルであるGR00T N1を紹介する。
論文 参考訳(メタデータ) (2025-03-18T21:06:21Z) - Cosmos-Transfer1: Conditional World Generation with Adaptive Multimodal Control [97.98560001760126]
複数の空間制御入力に基づいて世界シミュレーションを生成する条件付き世界生成モデルであるCosmos-Transferを導入する。
提案したモデルを解析し,ロボット2Realや自律走行車データ豊かさを含む物理AIへの応用を実証するために評価を行う。
論文 参考訳(メタデータ) (2025-03-18T17:57:54Z) - Cosmos World Foundation Model Platform for Physical AI [136.1002343616157]
私たちは、開発者が物理AIセットアップのためにカスタマイズされた世界モデルを構築するのを助けるために、Cosmos World Foundation Model Platformを紹介します。
我々のプラットフォームは、ビデオキュレーションパイプライン、事前訓練された世界ファンデーションモデル、事前訓練された世界ファンデーションモデルのポストトレーニング例、ビデオトークン化ツールをカバーしています。
論文 参考訳(メタデータ) (2025-01-07T06:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。