論文の概要: WoW: Towards a World omniscient World model Through Embodied Interaction
- arxiv url: http://arxiv.org/abs/2509.22642v1
- Date: Fri, 26 Sep 2025 17:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.638543
- Title: WoW: Towards a World omniscient World model Through Embodied Interaction
- Title(参考訳): WoW: 身体的相互作用による世界全周モデルを目指して
- Authors: Xiaowei Chi, Peidong Jia, Chun-Kai Fan, Xiaozhu Ju, Weishi Mi, Kevin Zhang, Zhiyuan Qin, Wanxin Tian, Kuangzhi Ge, Hao Li, Zezhong Qian, Anthony Chen, Qiang Zhou, Yueru Jia, Jiaming Liu, Yong Dai, Qingpo Wuwu, Chengyu Bai, Yu-Kai Wang, Ying Li, Lizhang Chen, Yong Bao, Zhiyuan Jiang, Jiacheng Zhu, Kai Tang, Ruichuan An, Yulin Luo, Qiuxuan Feng, Siyuan Zhou, Chi-min Chan, Chengkai Hou, Wei Xue, Sirui Han, Yike Guo, Shanghang Zhang, Jian Tang,
- Abstract要約: 世界モデルの正当性的な物理的直観は、現実世界との広範囲で因果的に豊かな相互作用に基礎を置いていなければならない。
このWoWは、200万のロボットインタラクショントラジェクトリに基づいてトレーニングされた、ジェネレーティブな世界モデルである。
WoWBenchは、ビデオの物理的一貫性と因果推論に焦点を当てた新しいベンチマークである。
- 参考スコア(独自算出の注目度): 83.43543124512719
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans develop an understanding of intuitive physics through active interaction with the world. This approach is in stark contrast to current video models, such as Sora, which rely on passive observation and therefore struggle with grasping physical causality. This observation leads to our central hypothesis: authentic physical intuition of the world model must be grounded in extensive, causally rich interactions with the real world. To test this hypothesis, we present WoW, a 14-billion-parameter generative world model trained on 2 million robot interaction trajectories. Our findings reveal that the model's understanding of physics is a probabilistic distribution of plausible outcomes, leading to stochastic instabilities and physical hallucinations. Furthermore, we demonstrate that this emergent capability can be actively constrained toward physical realism by SOPHIA, where vision-language model agents evaluate the DiT-generated output and guide its refinement by iteratively evolving the language instructions. In addition, a co-trained Inverse Dynamics Model translates these refined plans into executable robotic actions, thus closing the imagination-to-action loop. We establish WoWBench, a new benchmark focused on physical consistency and causal reasoning in video, where WoW achieves state-of-the-art performance in both human and autonomous evaluation, demonstrating strong ability in physical causality, collision dynamics, and object permanence. Our work provides systematic evidence that large-scale, real-world interaction is a cornerstone for developing physical intuition in AI. Models, data, and benchmarks will be open-sourced.
- Abstract(参考訳): 人間は世界との活発な相互作用を通じて直感的な物理学の理解を深める。
このアプローチは、受動的観察に依存し、物理的因果関係の把握に苦慮するSoraのような現在のビデオモデルとは対照的である。
この観察により、我々の中心的な仮説が導かれる: 世界モデルの真正の物理的直観は、現実世界との広範囲で因果的に豊かな相互作用によって基礎付けられなければならない。
この仮説を検証するために、200万個のロボットの相互作用軌跡に基づいて訓練された14ビリオンパラメータ生成世界モデルWoWを提案する。
以上の結果から,このモデルによる物理理解は,確率的な確率分布であり,確率的不安定性と物理幻覚につながることが示唆された。
さらに、この創発的能力は、視覚言語モデルエージェントがDiT生成した出力を評価し、言語命令を反復的に進化させることで、その洗練を誘導するSOPHIAによって、物理的リアリズムに積極的に制約できることを示した。
さらに、共同訓練された逆ダイナミクスモデルでは、これらの改良された計画を実行可能なロボットアクションに変換し、イマジネーションとアクションのループを閉じる。
我々は、WoWBenchというビデオの物理的一貫性と因果推論に焦点を当てた新しいベンチマークを構築し、WoWは人間と自律の両方で最先端のパフォーマンスを達成し、物理的因果性、衝突ダイナミクス、オブジェクト永続性の強い能力を示す。
私たちの研究は、大規模で現実世界のインタラクションが、AIにおける物理的な直感の発達の基盤である、という体系的な証拠を提供します。
モデル、データ、ベンチマークがオープンソース化される。
関連論文リスト
- Towards Immersive Human-X Interaction: A Real-Time Framework for Physically Plausible Motion Synthesis [51.95817740348585]
Human-Xは、様々な実体をまたいだ没入的で物理的に妥当なヒューマンインタラクションを可能にするために設計された、新しいフレームワークである。
本手法は, 自己回帰型反応拡散プランナを用いて, リアルタイムに反応と反応を同時予測する。
我々のフレームワークは、人間とロボットのインタラクションのための仮想現実インターフェースを含む、現実世界のアプリケーションで検証されている。
論文 参考訳(メタデータ) (2025-08-04T06:35:48Z) - SlotPi: Physics-informed Object-centric Reasoning Models [37.32107835829927]
物理インフォームドオブジェクト中心推論モデルであるSlotPiを紹介する。
我々の実験は、ベンチマークや流体データセット上での予測や視覚質問応答(VQA)といったタスクにおけるモデルの強みを強調した。
我々は、オブジェクトの相互作用、流体力学、流体オブジェクトの相互作用を含む実世界のデータセットを作成し、モデルの性能を検証した。
論文 参考訳(メタデータ) (2025-06-12T14:53:36Z) - Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning [77.6397528430433]
物理世界を理解し、適切な具体的決定を生成する物理AIモデルを提案する。
物理的常識を表現するために、空間、時間、物理学に関する基本的な知識を捉える階層的オントロジーを用いる。
具体的推論では、異なる物理的実施形態をまたいで一般化する2次元オントロジーに依存している。
論文 参考訳(メタデータ) (2025-03-18T22:06:58Z) - Generative Physical AI in Vision: A Survey [78.07014292304373]
遺伝子人工知能(AI)は、コンピュータビジョンの分野を急速に進歩させ、機械が前例のない高度なビジュアルデータを作成し、解釈できるようにする。
この変換は、現実的な画像、ビデオ、および3D/4Dコンテンツを生成するための生成モデルの基礎の上に構築されている。
生成モデルが進化して物理リアリズムと動的シミュレーションを統合するにつれ、「世界シミュレータ」として機能する可能性が拡大する。
論文 参考訳(メタデータ) (2025-01-19T03:19:47Z) - Visual cognition in multimodal large language models [12.603212933816206]
近年の進歩は、人間のような認知能力をエミュレートする可能性への関心を再燃させた。
本稿では、直観物理学、因果推論、直観心理学の分野における視覚に基づく大規模言語モデルの現状を評価する。
論文 参考訳(メタデータ) (2023-11-27T18:58:34Z) - Causal World Models by Unsupervised Deconfounding of Physical Dynamics [20.447000858907646]
世界の精神モデルで内部を想像する能力は、人間の認知にとって極めて重要である。
本稿では,相互関係の教師なしモデリングを可能にするCausal World Models(CWMs)を提案する。
強化学習タスクの複雑性サンプルの削減と、反実物的推論の改善を示します。
論文 参考訳(メタデータ) (2020-12-28T13:44:36Z) - Visual Grounding of Learned Physical Models [66.04898704928517]
人間は、物体の物理的特性を直感的に認識し、複雑な相互作用に従事している場合でも、その動きを予測する。
我々は、物理を同時に推論し、視覚と力学の先行に基づく将来の予測を行うニューラルモデルを提案する。
実験により、我々のモデルはいくつかの観測範囲内で物理的特性を推測できることが示され、モデルが目に見えないシナリオに迅速に適応し、将来正確な予測を行うことができる。
論文 参考訳(メタデータ) (2020-04-28T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。