論文の概要: SpatialTree: How Spatial Abilities Branch Out in MLLMs
- arxiv url: http://arxiv.org/abs/2512.20617v1
- Date: Tue, 23 Dec 2025 18:59:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.989856
- Title: SpatialTree: How Spatial Abilities Branch Out in MLLMs
- Title(参考訳): SpaceTree: MLLMにおける空間能力の分岐
- Authors: Yuxi Xiao, Longfei Li, Shen Yan, Xinhang Liu, Sida Peng, Yunchao Wei, Xiaowei Zhou, Bingyi Kang,
- Abstract要約: 低レベル知覚(L1)、メンタルマッピング(L2)、シミュレーション(L3)、エージェント能力(L4)の4つのレベルに空間能力を整理する認知科学に着想を得た階層を導入する。
複雑な推論には役立ちますが、直感的な知覚を損ないます。
本稿では,不必要な熟考を抑制するシンプルな自己思考戦略を提案する。
- 参考スコア(独自算出の注目度): 109.32057088014942
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cognitive science suggests that spatial ability develops progressively-from perception to reasoning and interaction. Yet in multimodal LLMs (MLLMs), this hierarchy remains poorly understood, as most studies focus on a narrow set of tasks. We introduce SpatialTree, a cognitive-science-inspired hierarchy that organizes spatial abilities into four levels: low-level perception (L1), mental mapping (L2), simulation (L3), and agentic competence (L4). Based on this taxonomy, we construct the first capability-centric hierarchical benchmark, thoroughly evaluating mainstream MLLMs across 27 sub-abilities. The evaluation results reveal a clear structure: L1 skills are largely orthogonal, whereas higher-level skills are strongly correlated, indicating increasing interdependency. Through targeted supervised fine-tuning, we uncover a surprising transfer dynamic-negative transfer within L1, but strong cross-level transfer from low- to high-level abilities with notable synergy. Finally, we explore how to improve the entire hierarchy. We find that naive RL that encourages extensive "thinking" is unreliable: it helps complex reasoning but hurts intuitive perception. We propose a simple auto-think strategy that suppresses unnecessary deliberation, enabling RL to consistently improve performance across all levels. By building SpatialTree, we provide a proof-of-concept framework for understanding and systematically scaling spatial abilities in MLLMs.
- Abstract(参考訳): 認知科学は、空間能力が徐々に知覚から推論や相互作用へと発展していくことを示唆している。
しかし、マルチモーダルLLM(MLLM)では、ほとんどの研究はタスクの狭いセットに焦点を絞っているため、この階層はいまだに理解されていない。
低レベルの知覚(L1)、メンタルマッピング(L2)、シミュレーション(L3)、エージェント能力(L4)の4つのレベルに空間能力を整理する認知科学に着想を得た階層であるSpatialTreeを導入する。
この分類に基づく最初の機能中心階層型ベンチマークを構築し、27のサブ能力にわたるMLLMを徹底的に評価する。
評価結果は,L1スキルは概ね直交するが,高いレベルのスキルは強く相関し,相互依存の増大が示唆された。
教師付き微調整により、L1内の驚くべき動的負の移動が明らかになるが、顕著な相乗効果を持つ低レベルの能力から高レベルの能力への強いクロスレベル移動が明らかになった。
最後に、階層全体を改善する方法について検討する。
複雑な推論には役立ちますが、直感的な知覚を損ないます。
本稿では,不必要な熟考を抑制するシンプルな自己思考戦略を提案する。
本研究では、SpatialTreeを構築することにより、MLLMにおける空間能力の理解と体系的スケーリングのための概念実証フレームワークを提供する。
関連論文リスト
- Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning [56.496001894673235]
強化学習(RL)は,大規模言語モデル(LLM)の複雑な推論能力の向上に有効であることが証明された。
解析の結果,アハモーメント,長さスケーリング,エントロピーのダイナミクスといったファズリング現象は異なる現象ではなく,創発的推論階層の目印であることがわかった。
論文 参考訳(メタデータ) (2025-09-03T18:52:49Z) - Decoupling Knowledge and Reasoning in LLMs: An Exploration Using Cognitive Dual-System Theory [2.8952499264943445]
大規模言語モデル(LLM)は推論中に知識と推論の両方を活用する。
本稿では,知識と推論の貢献を分離する認知帰属の枠組みを提案する。
論文 参考訳(メタデータ) (2025-07-24T08:24:52Z) - OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models [17.976302783133956]
認知心理学に基づく空間的推論のベンチマークであるOmniSpatialを紹介する。
動的推論、複雑な空間論理、空間相互作用、視点取りという4つの主要なカテゴリをカバーしている。
注意深い手動アノテーションにより8.4K以上の質問応答対を構築する。
論文 参考訳(メタデータ) (2025-06-03T17:58:29Z) - Truly Assessing Fluid Intelligence of Large Language Models through Dynamic Reasoning Evaluation [106.17986469245302]
大きな言語モデル(LLM)は、人間のような思考を反映する印象的な推論能力を示している。
既存の推論ベンチマークでは、ドメイン固有の知識(結晶化インテリジェンス)に焦点を当てるか、解釈可能性に欠ける。
階層的認知フレームワークを基盤とした動的推論評価ベンチマークであるDRE-Benchを提案する。
論文 参考訳(メタデータ) (2025-06-03T09:01:08Z) - Visual Large Language Models Exhibit Human-Level Cognitive Flexibility in the Wisconsin Card Sorting Test [5.346677002840565]
本研究では、最先端の視覚大言語モデル(VLLM)の認知的柔軟性を評価する。
以上の結果から,VLLMはテキストベースの入力によって,チェーン・オブ・シークレットの下で人間レベルのセットシフト能力を達成したり,超えたりすることが判明した。
論文 参考訳(メタデータ) (2025-05-28T08:40:55Z) - Kolb-Based Experiential Learning for Generalist Agents with Human-Level Kaggle Data Science Performance [81.05882480184587]
本稿では,自律エージェントに対するVygotskyのZPDを用いて,Kolbの学習サイクルの計算フレームワークを提案する。
Agent Kは、KolbとVygotskyにインスパイアされた人間の認知学習をうまく統合する第1のAIシステムである。
金9個、銀8個、銅12個で、メダル獲得競争で金4個、銀4個を含む。エージェントKは、コルブとヴィーゴツキーにインスパイアされた人間の認知学習をうまく統合する第1のAIシステムである。
論文 参考訳(メタデータ) (2024-11-05T23:55:23Z) - SpaRC and SpaRP: Spatial Reasoning Characterization and Path Generation for Understanding Spatial Reasoning Capability of Large Language Models [70.01883340129204]
空間推論は 生物学的と人工知能の両方において 重要な要素です
本稿では,現在最先端の大規模言語モデル (LLM) の空間的推論能力について包括的に検討する。
論文 参考訳(メタデータ) (2024-06-07T01:06:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。