論文の概要: Cosmos 3: Omnimodal World Models for Physical AI
- arxiv url: http://arxiv.org/abs/2606.02800v1
- Date: Mon, 01 Jun 2026 19:12:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.558622
- Title: Cosmos 3: Omnimodal World Models for Physical AI
- Title(参考訳): Cosmos 3: 物理AIのためのOmnimodal World Model
- Authors: Aditi, Niket Agarwal, Arslan Ali, Jon Allen, Martin Antolini, Adeline Aubame, Alisson Azzolini, Junjie Bai, Maciej Bala, Yogesh Balaji, Josh Bapst, Aarti Basant, Mukesh Beladiya, Mohammad Qazim Bhat, Zaid Pervaiz Bhat, Dan Blick, Vanni Brighella, Han Cai, Tiffany Cai, Eric Cameracci, Jiaxin Cao, Yulong Cao, Mark Carlson, Carlos Casanova, Ting-Yun Chang, Yan Chang, Yu-Wei Chao, Prithvijit Chattopadhyay, Roshan Chaudhari, Chieh-Yun Chen, Junyu Chen, Ke Chen, Qizhi Chen, Wenkai Chen, Xiaotong Chen, Yu Chen, An-Chieh Cheng, Click Cheng, Xiu Chia, Jeana Choi, Chaeyeon Chung, Wenyan Cong, Yin Cui, Magdalena Dadela, Nalin Dadhich, Wenliang Dai, Joyjit Daw, Alperen Degirmenci, Rodrigo Vieira Del Monte, Robert Denomme, Sameer Dharur, Marco Di Lucca, Ke Ding, Wenhao Ding, Yifan Ding, Yuzhu Dong, Nicole Drumheller, Yilun Du, Aigul Dzhumamuratova, Aleksandr Efitorov, Hamid Eghbalzadeh, Naomi Eigbe, Imad El Hanafi, Hassan Eslami, Benedikt Falk, Jiaojiao Fan, Jim Fan, Amol Fasale, Sergiy Fefilatyev, Liang Feng, Francesco Ferroni, Sanja Fidler, Xiao Fu, Vikram Fugro, Prashant Gaikwad, TJ Galda, Katelyn Gao, Yihuai Gao, Wenhang Ge, Sreyan Ghosh, Arushi Goel, Vivek Goel, Akash Gokul, Rama Govindaraju, Jinwei Gu, Miguel Guerrero, Elfie Guo, Aryaman Gupta, Siddharth Gururani, Hugo Hadfield, Song Han, Ankur Handa, Zekun Hao, Mohammad Harrim, Ali Hassani, Nathan Hayes-Roth, Yufan He, Chris Helvig, Cyrus Hogg, Madison Huang, Michael Huang, Sophia Huang, Yufan Huang, Jacob Huffman, DeLesley Hutchins, Suneel Indupuru, Boris Ivanovic, Arihant Jain, Joel Jang, Ryan Ji, Yanan Jian, Dongfu Jiang, Jingyi Jin, Atharva Joshi, Nikhilesh Joshi, Pranjali Joshi, Jaehun Jung, Weiwei Kang, Scott Kassekert, Jan Kautz, Ashna Khetan, Julia Kiczka, Slawek Kierat, Gwanghyun Kim, Kuno Kim, Sunny Kim, Kezhi Kong, Xin Kong, Zhifeng Kong, Tomasz Kornuta, Egor Krivov, Hui Kuang, Saurav Kumar, Chia-Wen Kuo, George Kurian, Wojciech Kutak, JF Lafleche, Himangshu Lahkar, Omar Laymoun, Jayjun Lee, Sanggil Lee, Gabriele Leone, Boyi Li, Freya Li, Jiajun Li, Jinfeng Li, Ling Li, Pengcheng Li, Shangru Li, Tingle Li, Xiaolong Li, Xuan Li, Zhaoshuo Li, Zhiqi Li, Hao Liang, Maosheng Liao, Chen-Hsuan Lin, Tsung-Yi Lin, Ming-Yu Liu, Sifei Liu, Zihan Liu, Hai Loc Lu, Xiangyu Lu, Alice Luo, Ruipu Luo, Wenjie Luo, Jiangran Lyu, Martin Ding Ma, Nic Ma, Qianli Ma, Dawid Majchrowski, Louis Marcoux, Miguel Martin, Qing Miao, Ashkan Mirzaei, Shreyas Misra, Kaichun Mo, Durra Mohsin, Hyejin Moon, Pawel Morkisz, Saeid Motiian, Kirill Motkov, Seungjun Nah, Yashraj Narang, Deepak Narayanan, Thabang Ngazimbi, Julian Ouyang, David Page, Yatian Pang, Sehwi Park, Mahesh Patekar, Mostofa Patwary, Marco Pavone, Trung Pham, Wei Ping, Soha Pouya, Shrimai Prabhumoye, Varun Praveen, Delin Qu, Hesam Rabeti, Morteza Ramezanali, Marilyn Reeb, Xuanchi Ren, Kristen Rumley, Wojciech Rymer, Jun Saito, Yeongho Seol, John Shao, Piyush Shekdar, Tianwei Shen, Humphrey Shi, Min Shi, Stella Shi, Kevin Shih, Mohammad Shoeybi, Mateusz Sieniawski, Shuran Song, Alexander Sotelo, Amir Sotoodeh, Sunil Srinivasa, Vignesh Srinivasakumar, Bartosz Stefaniak, Rahul Heinrich Steiger, Shangkun Sun, Jiaxiang Tang, Shitao Tang, Yangyang Tang, Yue Tang, Tolou Tavakkoli, Kayley Ting, Krzysztof Tomala, Wei-Cheng Tseng, Jibin Varghese, Sergei Vasilev, Thomas Volk, Raju Wagwani, Roger Waleffe, Andrew Z. Wang, Boxiang Wang, Haoxiang Wang, Qiao Wang, Shihao Wang, Shijie Wang, Ting-Chun Wang, Yan Wang, Yu Wang, David Wehr, Fangyin Wei, Xinshuo Weng, Jay Zhangjie Wu, Kedi Wu, Hongchi Xia, Summer Xiao, Tianjun Xiao, Kevin Xie, Daguang Xu, Jiashu Xu, Mengyao Xu, Ruqing Xu, Xingqian Xu, Yao Xu, Dinghao Yang, Dong Yang, Hans Yang, Xiaodong Yang, Xuning Yang, Yichu Yang, Yurong You, Zhiding Yu, Hao Yuan, Simon Yuen, Xiaohui Zeng, Pengcuo Zeren, Cindy Zha, Haotian Zhang, Jenny Zhang, Jing Zhang, Liangkai Zhang, Paris Zhang, Shun Zhang, Xuanmeng Zhang, Zhizheng Zhang, Ann Zhao, Yilin Zhao, Yuliya Zhautouskaya, Charles Zhou, Fengzhe Zhou, Shilin Zhu, Yuke Zhu, Dima Zhylko, Artur Zolkowski,
- Abstract要約: 我々は、言語、画像、ビデオ、オーディオ、アクションシーケンスを共同で処理し、生成するために設計された、一様世界モデルのファミリーであるCosmos 3を紹介する。
評価の結果,コスモス3は多種多様な理解・生成タスクにまたがって新たな最先端技術を確立していることがわかった。
- 参考スコア(独自算出の注目度): 322.04238291605924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Cosmos 3, a family of omnimodal world models designed to jointly process and generate language, image, video, audio, and action sequences within a unified mixture-of-transformers architecture. By supporting highly flexible input-output configurations, Cosmos 3 seamlessly unifies critical modalities for Physical AI -- effectively subsuming vision-language models, video generators, world simulators, and world-action models into a single framework. Our evaluation demonstrates that Cosmos 3 establishes a new state-of-the-art across a diverse suite of understanding and generation tasks, demonstrating omnimodal world models as scalable, general-purpose backbones for embodied agents. Our post-trained Cosmos 3 models were ranked as the best open-source Text-to-Image and Image-to-Video models by Artificial Analysis, and the best policy model by RoboArena at the time the technical report was written. To accelerate open research and deployment in Physical AI, we make our code, model checkpoints, curated synthetic datasets, and evaluation benchmark available under the Linux Foundation's OpenMDW-1.1 https://openmdw.ai/license/1-1/ License at https://github.com/nvidia/cosmos}{github.com/nvidia/cosmos and https://huggingface.co/collections/nvidia/cosmos3 . The project website is available at https://research.nvidia.com/labs/cosmos-lab/cosmos3 .
- Abstract(参考訳): コンパニオン・オブ・トランスフォーマー・アーキテクチャにおいて、言語、画像、ビデオ、オーディオ、アクションシーケンスを共同で処理し、生成するように設計された、一様世界モデルのファミリーであるCosmos 3を紹介する。
高度に柔軟な入力出力構成をサポートすることで、Cosmos 3は物理AIの重要なモダリティをシームレスに統一する -- 視覚言語モデル、ビデオジェネレータ、ワールドシミュレータ、ワールドアクションモデルを単一のフレームワークに効果的に仮定する。
評価の結果,コスモス3は多種多様な理解・生成タスクにまたがって新たな最先端の技術を確立し,全世界モデルがエンボディエージェントのためのスケーラブルで汎用的なバックボーンであることを示す。
われわれのポストトレーニング後のコスモス3モデルは、Artific Analysisによるオープンソーステキスト・ツー・イメージ・トゥ・ビデオ・モデル、そしてRoboArenaによる技術レポート作成時の最良のポリシーモデルとしてランク付けされた。
物理AIのオープンな研究と展開を加速するために、私たちのコード、モデルチェックポイント、キュレートされた合成データセット、評価ベンチマークをLinux FoundationのOpenMDW-1.1 https://openmdw.ai/license/1-1/ License at https://github.com/nvidia/cosmos}{github.com/nvidia/cosmos and https://huggingface.co/collections/nvidia/cosmos3 で公開しています。
プロジェクトのWebサイトはhttps://research.nvidia.com/labs/cosmos-lab/cosmos3で公開されている。
関連論文リスト
- Latent Particle World Models: Self-supervised Object-centric Stochastic Dynamics Modeling [51.40150411616207]
実世界のマルチオブジェクトデータセットに拡張された自己教師型オブジェクト中心の世界モデルであるLatent Particle World Model (LPWM)を紹介する。
LPWMは、ビデオデータから直接キーポイント、バウンディングボックス、オブジェクトマスクを自律的に発見する。
私たちのアーキテクチャは、純粋にビデオからエンドツーエンドにトレーニングされ、アクション、言語、イメージ目標に対するフレキシブルな条件付けをサポートします。
論文 参考訳(メタデータ) (2026-03-04T19:36:08Z) - World Simulation with Video Foundation Models for Physical AI [181.78265691303315]
我々は,[Cosmos-Predict2.5]と[Cosmos-Transfer2.5]を,エンボディインテリジェンスをスケールするための汎用ツールとしてリリースする。
我々はNVIDIA Open Model Licenseの下で、ソースコード、事前訓練されたチェックポイント、およびキュレートされたベンチマークをリリースします。
論文 参考訳(メタデータ) (2025-10-28T22:44:13Z) - Yume: An Interactive World Generation Model [38.818537395166835]
Yumeは、画像やテキスト、ビデオを使って対話的でリアルでダイナミックな世界を作る。
入力画像から動的世界を生成し、キーボードアクションを使って世界を探索することができる。
論文 参考訳(メタデータ) (2025-07-23T17:57:09Z) - Cosmos-Transfer1: Conditional World Generation with Adaptive Multimodal Control [97.98560001760126]
複数の空間制御入力に基づいて世界シミュレーションを生成する条件付き世界生成モデルであるCosmos-Transferを導入する。
提案したモデルを解析し,ロボット2Realや自律走行車データ豊かさを含む物理AIへの応用を実証するために評価を行う。
論文 参考訳(メタデータ) (2025-03-18T17:57:54Z) - Cosmos World Foundation Model Platform for Physical AI [136.1002343616157]
私たちは、開発者が物理AIセットアップのためにカスタマイズされた世界モデルを構築するのを助けるために、Cosmos World Foundation Model Platformを紹介します。
我々のプラットフォームは、ビデオキュレーションパイプライン、事前訓練された世界ファンデーションモデル、事前訓練された世界ファンデーションモデルのポストトレーニング例、ビデオトークン化ツールをカバーしています。
論文 参考訳(メタデータ) (2025-01-07T06:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。