論文の概要: Visual Generation Unlocks Human-Like Reasoning through Multimodal World Models
- arxiv url: http://arxiv.org/abs/2601.19834v1
- Date: Tue, 27 Jan 2026 17:40:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.423806
- Title: Visual Generation Unlocks Human-Like Reasoning through Multimodal World Models
- Title(参考訳): マルチモーダル世界モデルによるヒューマンライクな推論を解き明かすビジュアルジェネレーション
- Authors: Jialong Wu, Xiaoying Zhang, Hongyi Yuan, Xiangcheng Zhang, Tianhao Huang, Changjing He, Chaoyi Deng, Renrui Zhang, Youbin Wu, Mingsheng Long,
- Abstract要約: 人間は、これらのモデル内の概念を操作することによって、内的世界モデルと理性を構築する。
近年のAIの進歩は、世界モデルが大きな言語モデルに埋め込まれていると信じられている人間の認知能力に近似している。
本稿では,視覚生成が推論にどのような効果をもたらすかについて,最初の原理的考察を行った。
- 参考スコア(独自算出の注目度): 60.543714835980325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans construct internal world models and reason by manipulating the concepts within these models. Recent advances in AI, particularly chain-of-thought (CoT) reasoning, approximate such human cognitive abilities, where world models are believed to be embedded within large language models. Expert-level performance in formal and abstract domains such as mathematics and programming has been achieved in current systems by relying predominantly on verbal reasoning. However, they still lag far behind humans in domains like physical and spatial intelligence, which require richer representations and prior knowledge. The emergence of unified multimodal models (UMMs) capable of both verbal and visual generation has therefore sparked interest in more human-like reasoning grounded in complementary multimodal pathways, though their benefits remain unclear. From a world-model perspective, this paper presents the first principled study of when and how visual generation benefits reasoning. Our key position is the visual superiority hypothesis: for certain tasks--particularly those grounded in the physical world--visual generation more naturally serves as world models, whereas purely verbal world models encounter bottlenecks arising from representational limitations or insufficient prior knowledge. Theoretically, we formalize internal world modeling as a core component of CoT reasoning and analyze distinctions among different forms of world models. Empirically, we identify tasks that necessitate interleaved visual-verbal CoT reasoning, constructing a new evaluation suite, VisWorld-Eval. Controlled experiments on a state-of-the-art UMM show that interleaved CoT significantly outperforms purely verbal CoT on tasks that favor visual world modeling, but offers no clear advantage otherwise. Together, this work clarifies the potential of multimodal world modeling for more powerful, human-like multimodal AI.
- Abstract(参考訳): 人間は、これらのモデル内の概念を操作することによって、内的世界モデルと理性を構築する。
AIの最近の進歩、特にチェーン・オブ・ソート(CoT)推論は、世界モデルが大きな言語モデルに埋め込まれていると信じられている人間の認知能力に近似している。
数学やプログラミングのような形式的および抽象的な分野におけるエキスパートレベルのパフォーマンスは、言語推論に大きく依存することで、現在のシステムにおいて達成されている。
しかし、それらは、より豊かな表現と事前の知識を必要とする物理的および空間的知性のような領域において、人間よりもはるかに遅れている。
言語生成と視覚生成の両方が可能な統一マルチモーダルモデル(UMM)の出現は、相補的なマルチモーダル経路に根ざした人間的な推論への関心を喚起した。
本稿では,世界モデルの観点から,視覚生成が推論にどのような効果をもたらすかについて,最初の原理的考察を行った。
我々の重要な位置は視覚上の優越性仮説である:特定のタスク、特に物理世界において基礎を置いているタスク、特に視覚的生成は、より自然に世界モデルとして機能する一方、純粋に言語的な世界モデルは、表現上の制限や不十分な事前知識から生じるボトルネックに遭遇する。
理論的には、CoT推論のコアコンポーネントとして内部世界モデリングを形式化し、異なる形態の世界モデル間の区別を分析する。
視覚的言語的CoT推論を必要とするタスクを実証的に同定し,新しい評価スイートVisWorld-Evalを構築した。
最先端のUMMにおける制御された実験によると、CoTのインターリーブは、視覚世界モデリングを好むタスクにおいて純粋に言語的にCoTよりも優れているが、それ以外は明確な優位性を提供しない。
この研究は、より強力で人間らしいマルチモーダルAIのためのマルチモーダルワールドモデリングの可能性を明らかにする。
関連論文リスト
- Beyond World Models: Rethinking Understanding in AI Models [15.246406031450775]
世界モデルは、外界の側面をシミュレートする内部表現である。
AIモデルに類似した表現の証拠を見つけることは、これらのモデルが人間のような方法で世界を「理解」していることを示しているかもしれない。
本稿では,世界モデルフレームワークが人間レベルの理解を適切に特徴付けるかどうかを批判的に検討する。
論文 参考訳(メタデータ) (2025-11-15T14:45:26Z) - Bridging the Gap Between Multimodal Foundation Models and World Models [10.001347956177879]
マルチモーダル・ファンデーション・モデルとワールド・モデルとのギャップを埋めるために何が必要かを検討する。
本稿では,シーングラフ,マルチモーダルコンディショニング,アライメント戦略を取り入れて生成プロセスのガイドを行う。
我々はこれらの技術を制御可能な4D生成に拡張し、時間と空間を通じてインタラクティブで編集可能、そして変形可能なオブジェクト合成を可能にする。
論文 参考訳(メタデータ) (2025-10-04T08:14:20Z) - Can World Models Benefit VLMs for World Dynamics? [59.73433292793044]
本研究では,世界モデル先行モデルがビジョンランゲージモデルに移行した場合の能力について検討する。
最高の性能を持つDynamic Vision Aligner (DyVA) と名付けます。
DyVAはオープンソースとプロプライエタリの両方のベースラインを超え、最先端または同等のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-10-01T13:07:05Z) - Learning Local Causal World Models with State Space Models and Attention [1.5498250598583487]
本研究では,SSMが単純な環境のダイナミクスをモデル化し,因果モデルを同時に学習できることを示す。
我々は、SSMの強みに傾倒するさらなる実験の道を開き、因果意識でそれらをさらに強化する。
論文 参考訳(メタデータ) (2025-05-04T11:57:02Z) - Elements of World Knowledge (EWoK): A Cognition-Inspired Framework for Evaluating Basic World Knowledge in Language Models [51.891804790725686]
要素・オブ・ワールド・ナレッジ(Elements of World Knowledge, EWoK)は、言語モデルによる世界モデリングの基礎となる概念的知識の理解を評価するためのフレームワークである。
EWoK-core-1.0は世界11の知識領域をカバーする4,374項目のデータセットである。
すべてのテストされたモデルは人間よりもパフォーマンスが悪く、その結果はドメインによって大きく異なる。
論文 参考訳(メタデータ) (2024-05-15T17:19:42Z) - Visual cognition in multimodal large language models [12.603212933816206]
近年の進歩は、人間のような認知能力をエミュレートする可能性への関心を再燃させた。
本稿では、直観物理学、因果推論、直観心理学の分野における視覚に基づく大規模言語モデルの現状を評価する。
論文 参考訳(メタデータ) (2023-11-27T18:58:34Z) - Causal Reasoning Meets Visual Representation Learning: A Prospective
Study [117.08431221482638]
解釈可能性の欠如、堅牢性、分布外一般化が、既存の視覚モデルの課題となっている。
人間レベルのエージェントの強い推論能力にインスパイアされた近年では、因果推論パラダイムの開発に多大な努力が注がれている。
本稿では,この新興分野を包括的に概観し,注目し,議論を奨励し,新たな因果推論手法の開発の急激さを先導することを目的とする。
論文 参考訳(メタデータ) (2022-04-26T02:22:28Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。