論文の概要: Beyond the Cartesian Illusion: Testing Two-Stage Multi-Modal Theory of Mind under Perceptual Bottlenecks
- arxiv url: http://arxiv.org/abs/2605.18194v1
- Date: Mon, 18 May 2026 10:32:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.401583
- Title: Beyond the Cartesian Illusion: Testing Two-Stage Multi-Modal Theory of Mind under Perceptual Bottlenecks
- Title(参考訳): カルテシアン・イリュージョンを超えて:知覚的ボツネック下での2段階のマルチモーダル・マインド理論の検証
- Authors: Yajing Zhou, Xiangyu Kong,
- Abstract要約: アンカー型空間分解鎖(CoT)について紹介する。
CoTはMLLMを「幾何学的から意味論的」な投影を通して誘導し、まずはBの局所座標系を確立し、次にAがBの視覚フラストラムに該当するかどうかに基づいて、動的に視覚的および聴覚的モダリティを重み付けする。
- 参考スコア(独自算出の注目度): 16.03812136589077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Multi-Modal Large Language Models (MLLMs) demonstrate impressive capabilities in general reasoning, their embodied spatial intelligence remains hampered by a "Cartesian Illusion" - a reliance on text-based probability distributions that lack grounded, 3D topological understanding. This limitation is starkly exposed in multi-agent environments, which demand more than just scene perception; they require second-order Theory of Mind (ToM). Specifically, an Agent A must be able to infer Agent B's belief about the environment, governed strictly by Agent B's physical orientation and sensory limitations. In this paper, we probe the limits of two-stage spatial inference in MLLMs through a novel audio-visual task: requiring Agent A to predict Agent B's estimation of A's relative location. To solve this, we propose an Epistemic Sensory Bottleneck module that abandons rigid, rule-based coordinate transformations. Instead, we introduce an Anchor-Based Embodied Spatial Decomposition Chain-of-Thought (CoT). This guides the MLLM through a "geometric-to-semantic" projection, forcing it to first establish B's local coordinate system and then dynamically weight visual and auditory modalities based on whether A falls within B's visual frustum. Extensive evaluations reveal that while current MLLMs fundamentally struggle with spatial symmetry and out-of-view ambiguities (establishing a rigorous zero-shot baseline of 42% accuracy), our sensory-bounded reasoning chain robustly outperforms pure egocentric and allocentric baselines. By systematically benchmarking these perceptual bottlenecks, our work exposes the current limits of MLLM spatial reasoning and establishes a foundational paradigm for epistemic, modality-aware inference in Embodied AI.
- Abstract(参考訳): MLLM(Multi-Modal Large Language Models)は一般的な推論における印象的な能力を示しているが、その具体化された空間的知性は「カルテシアンイリュージョン」によって妨げられている。
この制限は、シーンの知覚以上のものを必要とするマルチエージェント環境において、恐ろしく露出しており、それらは2階の心の理論(ToM)を必要とする。
具体的には、エージェントAはエージェントBの物理的配向と感覚制限によって厳密に支配される環境に対するエージェントBの信念を推測できなければならない。
本稿では,MLLMにおける2段階空間推定の限界を,エージェントAがエージェントBの相対的位置推定を予測しなければならないという,新しい視覚的タスクを通じて探索する。
これを解決するために,厳密な規則に基づく座標変換を放棄するEpstemic Sensory Bottleneckモジュールを提案する。
代わりに、Anchor-based Embodied Spatial Decomposition Chain-of-Thought (CoT)を導入する。
これにより、MLLMは「幾何学的から意味論的」な投影を通して誘導され、まずはBの局所座標系を確立し、次にAがBの視覚フラストラムに該当するかどうかに基づいて、動的に視覚的および聴覚的モダリティを重み付けする。
現在のMLLMは、空間対称性と外見の曖昧さ(厳密なゼロショットベースラインを42%精度で確立する)に基本的に苦戦しているのに対し、感覚に縛られた推論チェーンは、純粋なエゴセントリックおよびアロセントリックベースラインを頑健に上回っている。
これらの知覚的ボトルネックを体系的にベンチマークすることにより、我々の研究はMLLM空間的推論の現在の限界を明らかにし、エンボディードAIにおける疫学的、モダリティを意識した推論の基礎パラダイムを確立する。
関連論文リスト
- ESI-Bench: Towards Embodied Spatial Intelligence that Closes the Perception-Action Loop [55.468404995694975]
我々は,OmniGibson上に構築された10のタスクカテゴリと29のサブカテゴリにまたがる空間知能の具体化ベンチマークを開発した。
我々は最先端のMLLMの実験を行い、活発な探索が受動的に優れていることを発見した。
矛盾した視点を求め、信念を改定する人間とは異なり、モデルは証拠の品質に関わらず、高い信頼をもって早々に行動する。
論文 参考訳(メタデータ) (2026-05-18T17:59:02Z) - SpaMEM: Benchmarking Dynamic Spatial Reasoning via Perception-Memory Integration in Embodied Environments [19.997461654311994]
本稿では,空間的信念進化の力学を分離した大規模診断ベンチマークであるSpaMEMを紹介する。
SpaMEMは,4つのモードにわたる10,601,392の高忠実度画像を備えた,物理的に接地されたデータセット上に構築されている。
我々は,空間推論を3段階の階層として15の診断タスクで定式化する。
論文 参考訳(メタデータ) (2026-04-24T10:06:41Z) - SpatiO: Adaptive Test-Time Orchestration of Vision-Language Agents for Spatial Reasoning [18.3204772691015]
空間的推論には、入力に応じて異なる戦略を柔軟に調整する必要がある。
既存のアプローチのほとんどは、固定空間を暗黙的に学習する単一の推論パイプラインに依存している。
空間推論のための異種多エージェントフレームワークであるSpatiOを導入し、複数の視覚言語の専門家と相補的帰納バイアスを協調する。
論文 参考訳(メタデータ) (2026-04-23T01:19:37Z) - SpatialImaginer: Towards Adaptive Visual Imagination for Spatial Reasoning [67.67774742200626]
空間知能は、視覚的な観察から幾何学的および物理的構造を推論する能力を指すもので、大きな言語モデルにとって重要な課題である。
テキスト推論と視覚的想像力を組み合わせた統合型マルチモーダル生成フレームワークを提案する。
本フレームワークでは,高レベルなセマンティックプランニングのためのテキストチェーンと,幾何感応的な状態変換と整合性保存のための視覚的想像力を用いて,分割・対数戦略を採用している。
論文 参考訳(メタデータ) (2026-04-19T11:21:59Z) - Anatomy of a Lie: A Multi-Stage Diagnostic Framework for Tracing Hallucinations in Vision-Language Models [62.932580559941414]
VLM(Vision-Language Models)は、しばしば「ハロシン化(hallucinate)」する。
本稿では,静的な出力誤差からモデル計算認知の動的病理へ再キャストし,幻覚を診断するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2026-03-16T17:20:38Z) - Cognitively-Inspired Tokens Overcome Egocentric Bias in Multimodal Models [0.0]
マルチモーダル言語モデル(MLM)は、他のエージェントの視覚的視点を採用する必要がある空間的推論において失敗する。
人間の空間認識にインスパイアされた視点トークンは,(1)具体的身体キーポイント・キュー,あるいは(2)心的回転を支える抽象的表現によって,向きを符号化する。
総合的および自然主義的なベンチマーク全体において、パースペクティブトークンは精度を向上し、ローテーションベースのトークンは非人間参照エージェントに一般化される。
論文 参考訳(メタデータ) (2026-01-23T00:21:27Z) - SpatialTree: How Spatial Abilities Branch Out in MLLMs [109.32057088014942]
低レベル知覚(L1)、メンタルマッピング(L2)、シミュレーション(L3)、エージェント能力(L4)の4つのレベルに空間能力を整理する認知科学に着想を得た階層を導入する。
複雑な推論には役立ちますが、直感的な知覚を損ないます。
本稿では,不必要な熟考を抑制するシンプルな自己思考戦略を提案する。
論文 参考訳(メタデータ) (2025-12-23T18:59:46Z) - SpatialDreamer: Incentivizing Spatial Reasoning via Active Mental Imagery [64.67498968405327]
SpaceDreamerは、活発な探索のクローズループプロセスを通じて空間推論を可能にする強化学習フレームワークである。
GeoPOは、整合性幾何制約を伴う木構造サンプリングとステップレベルの報酬推定を導入している。
論文 参考訳(メタデータ) (2025-12-08T17:20:50Z) - Geometrically-Constrained Agent for Spatial Reasoning [53.93718394870856]
視覚言語モデルは空間的推論において基本的な意味-幾何学的ギャップを示す。
現在のパラダイムは、このギャップを埋めることに失敗します。
本稿では,形式的タスク制約を導入することにより,このギャップを解消する学習自由エージェントパラダイムを提案する。
論文 参考訳(メタデータ) (2025-11-27T17:50:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。