論文の概要: Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning
- arxiv url: http://arxiv.org/abs/2503.15558v1
- Date: Tue, 18 Mar 2025 22:06:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:36:05.849782
- Title: Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning
- Title(参考訳): Cosmos-Reason1:物理常識から身体的推論へ
- Authors: NVIDIA, :, Alisson Azzolini, Hannah Brandon, Prithvijit Chattopadhyay, Huayu Chen, Jinju Chu, Yin Cui, Jenna Diamond, Yifan Ding, Francesco Ferroni, Rama Govindaraju, Jinwei Gu, Siddharth Gururani, Imad El Hanafi, Zekun Hao, Jacob Huffman, Jingyi Jin, Brendan Johnson, Rizwan Khan, George Kurian, Elena Lantz, Nayeon Lee, Zhaoshuo Li, Xuan Li, Tsung-Yi Lin, Yen-Chen Lin, Ming-Yu Liu, Andrew Mathau, Yun Ni, Lindsey Pavao, Wei Ping, David W. Romero, Misha Smelyanskiy, Shuran Song, Lyne Tchapmi, Andrew Z. Wang, Boxin Wang, Haoxiang Wang, Fangyin Wei, Jiashu Xu, Yao Xu, Xiaodong Yang, Zhuolin Yang, Xiaohui Zeng, Zhe Zhang,
- Abstract要約: 物理的なAIシステムは、物理的な世界で複雑な行動を知覚し、理解し、実行する必要がある。
物理世界を理解するためのモデルを提案する。
私たちは、空間、時間、物理学に関する基本的な知識を捉える階層的オントロジーを使用します。
具体的推論では、異なる物理的実施形態をまたいで一般化する2次元オントロジーに依存している。
- 参考スコア(独自算出の注目度): 77.33461186578707
- License:
- Abstract: Physical AI systems need to perceive, understand, and perform complex actions in the physical world. In this paper, we present the Cosmos-Reason1 models that can understand the physical world and generate appropriate embodied decisions (e.g., next step action) in natural language through long chain-of-thought reasoning processes. We begin by defining key capabilities for Physical AI reasoning, with a focus on physical common sense and embodied reasoning. To represent physical common sense, we use a hierarchical ontology that captures fundamental knowledge about space, time, and physics. For embodied reasoning, we rely on a two-dimensional ontology that generalizes across different physical embodiments. Building on these capabilities, we develop two multimodal large language models, Cosmos-Reason1-8B and Cosmos-Reason1-56B. We curate data and train our models in four stages: vision pre-training, general supervised fine-tuning (SFT), Physical AI SFT, and Physical AI reinforcement learning (RL) as the post-training. To evaluate our models, we build comprehensive benchmarks for physical common sense and embodied reasoning according to our ontologies. Evaluation results show that Physical AI SFT and reinforcement learning bring significant improvements. To facilitate the development of Physical AI, we will make our code and pre-trained models available under the NVIDIA Open Model License at https://github.com/nvidia-cosmos/cosmos-reason1.
- Abstract(参考訳): 物理的なAIシステムは、物理的な世界で複雑な行動を知覚し、理解し、実行する必要がある。
本稿では,物理世界を理解し,自然言語における適切な具体的決定(例えば次のステップアクション)を,長い連鎖的推論プロセスを通じて生成するコスモス・レーソン1モデルを提案する。
まず、物理コモンセンスと具体的推論に焦点をあてて、物理AI推論の重要な機能を定義します。
物理的常識を表現するために、空間、時間、物理学に関する基本的な知識を捉える階層的オントロジーを用いる。
具体的推論では、異なる物理的実施形態をまたいで一般化する2次元オントロジーに依存している。
これらの機能に基づいて,Cosmos-Reason1-8BとCosmos-Reason1-56Bの2つの多モード大言語モデルを開発した。
我々は、ビジョン事前学習、一般教師付き微調整(SFT)、物理AI SFT、物理AI強化学習(RL)の4段階でデータをキュレートし、モデルをトレーニングする。
我々のモデルを評価するため、我々は物理コモンセンスのための総合的なベンチマークを構築し、オントロジーに従って推論を具体化する。
評価結果から,Physical AI SFTと強化学習が大きな改善をもたらすことが示された。
Physical AIの開発を容易にするため、当社はNVIDIA Open Model Licenseの下で、コードと事前トレーニング済みモデルをhttps://github.com/nvidia-cosmos/cosmos-reason1で利用可能にします。
関連論文リスト
- Neural Force Field: Learning Generalized Physical Representation from a Few Examples [24.651024239605288]
大規模なトレーニングにもかかわらず、現在のAIモデルは、同様の一般化を達成するのに依然として苦労している。
ニューラル正規微分方程式(NODE)に基づくモデリングフレームワークであるニューラルフォース場(NFF)を提案する。
NFFは、重力、支持、衝突などの基本的な物理的概念を解釈可能な方法で捉えている。
論文 参考訳(メタデータ) (2025-02-13T05:50:13Z) - Generative Physical AI in Vision: A Survey [25.867330158975932]
生成人工知能(AI)は、コンピュータビジョンの分野を急速に進歩させ、機械が前例のない高度なビジュアルデータを作成し、解釈できるようにする。
生成AIが進化して物理リアリズムと動的シミュレーションを統合するにつれ、その「世界シミュレータ」として機能する可能性が高まっている。
この調査は、コンピュータビジョンにおける物理学を意識した生成AIの出現する分野を体系的にレビューする。
論文 参考訳(メタデータ) (2025-01-19T03:19:47Z) - A Phenomenological AI Foundation Model for Physical Signals [1.204553980682492]
我々は0.59億のクロスモーダルセンサ測定のモデルを開発し、訓練する。
物理法則や帰納バイアスに関する事前の知識はモデルに導入されなかった。
一つの基礎モデルが物理的挙動を効果的にエンコードし予測できることを実証する。
論文 参考訳(メタデータ) (2024-10-15T21:03:53Z) - Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation [51.750634349748736]
テキスト・ツー・ビデオ(T2V)モデルは複雑なプロンプトの可視化に大きく貢献している。
しかし、直感的な物理を正確に表現するこれらのモデルの能力はほとんど解明されていない。
本稿では,T2V生成における物理コモンセンスの正しさを評価するためにPhyGenBenchを導入する。
論文 参考訳(メタデータ) (2024-10-07T17:56:04Z) - ContPhy: Continuum Physical Concept Learning and Reasoning from Videos [86.63174804149216]
ContPhyは、マシン物理常識を評価するための新しいベンチマークである。
私たちは、さまざまなAIモデルを評価し、ContPhyで満足なパフォーマンスを達成するのに依然として苦労していることがわかった。
また、近年の大規模言語モデルとパーティクルベースの物理力学モデルを組み合わせるためのオラクルモデル(ContPRO)を導入する。
論文 参考訳(メタデータ) (2024-02-09T01:09:21Z) - Visual cognition in multimodal large language models [12.603212933816206]
近年の進歩は、人間のような認知能力をエミュレートする可能性への関心を再燃させた。
本稿では、直観物理学、因果推論、直観心理学の分野における視覚に基づく大規模言語モデルの現状を評価する。
論文 参考訳(メタデータ) (2023-11-27T18:58:34Z) - X-VoE: Measuring eXplanatory Violation of Expectation in Physical Events [75.94926117990435]
本研究では,AIエージェントによる直感的な物理の把握を評価するベンチマークデータセットであるX-VoEを紹介する。
X-VoEは直感的な物理モデルの説明能力を高めるためのより高いバーを確立する。
本稿では、物理力学を捉え、隠蔽対象状態を推定する説明に基づく学習システムを提案する。
論文 参考訳(メタデータ) (2023-08-21T03:28:23Z) - Intrinsic Physical Concepts Discovery with Object-Centric Predictive
Models [86.25460882547581]
PHYsical Concepts Inference NEtwork (PHYCINE) は、異なる抽象レベルの物理概念を監督なしで推論するシステムである。
物理概念変数を含むオブジェクト表現は因果推論タスクの性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-03-03T11:52:21Z) - Machine Common Sense [77.34726150561087]
機械の常識は、人工知能(AI)において広範で潜在的に無拘束な問題のままである
本稿では、対人インタラクションのようなドメインに焦点を当てたコモンセンス推論のモデル化の側面について論じる。
論文 参考訳(メタデータ) (2020-06-15T13:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。