論文の概要: SpatialBench: Benchmarking Multimodal Large Language Models for Spatial Cognition
- arxiv url: http://arxiv.org/abs/2511.21471v1
- Date: Wed, 26 Nov 2025 15:04:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.15178
- Title: SpatialBench: Benchmarking Multimodal Large Language Models for Spatial Cognition
- Title(参考訳): SpaceBench: 空間認知のためのマルチモーダル大言語モデルのベンチマーク
- Authors: Peiran Xu, Sudong Wang, Yao Zhu, Jianing Li, Yunjian Zhang,
- Abstract要約: 空間認知は実世界のマルチモーダルインテリジェンスの基本であり、モデルが物理的環境と対話できるようにする。
既存のベンチマークはしばしば空間認知を単純化し、それを1次元の計量に還元する。
本稿では,空間知能を5つの段階に分解する階層的空間認知フレームワークを提案する。
- 参考スコア(独自算出の注目度): 19.526371771173064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial cognition is fundamental to real-world multimodal intelligence, allowing models to effectively interact with the physical environment. While multimodal large language models (MLLMs) have made significant strides, existing benchmarks often oversimplify spatial cognition, reducing it to a single-dimensional metric, which fails to capture the hierarchical structure and interdependence of spatial abilities. To address this gap, we propose a hierarchical spatial cognition framework that decomposes spatial intelligence into five progressively complex levels from basic observation to high-level planning. Building upon this taxonomy, we construct SpatialBench, a large-scale, fine-grained benchmark covering 15 tasks aligned with these cognitive levels. To provide a unified evaluation across heterogeneous tasks, we further introduce a high-level capability-oriented metric that reliably assesses a model's overall spatial reasoning ability. Extensive experiments over massive MLLMs reveal distinct performance stratification across cognitive levels: models exhibit strong perceptual grounding yet remain limited in symbolic reasoning, causal inference, and planning. Additional human tests demonstrate that humans perform selective, goal-directed abstraction, while MLLMs tend to over-attend to surface details without coherent spatial intent. Our work establishes the first systematic framework for measuring hierarchical spatial cognition in MLLMs, laying the foundation for future spatially intelligent systems.
- Abstract(参考訳): 空間認知は実世界のマルチモーダルインテリジェンスの基本であり、モデルが物理的環境と効果的に相互作用することを可能にする。
MLLM(Multimodal large language model)は大きな進歩を遂げているが、既存のベンチマークはしばしば空間認識を単純化し、それを1次元のメートル法に還元するが、これは階層構造と空間能力の相互依存を捉えるのに失敗する。
このギャップに対処するために,空間知能を基本観測から高計画までの5段階に分解する階層的空間認知フレームワークを提案する。
この分類に基づいて、これらの認知レベルに合わせた15のタスクをカバーする大規模できめ細かいベンチマークであるSpatialBenchを構築した。
異種タスク間の統一評価を実現するため,モデル全体の空間的推論能力を確実に評価する高レベルな能力指向計量を導入する。
モデルは強い知覚的基盤を示すが、象徴的推論、因果推論、計画において制限される。
追加の人間実験では、人間が選択的にゴール指向の抽象化を行うのに対し、MLLMはコヒーレントな空間意図を伴わずに表面的な詳細に過度に依存する傾向がある。
本研究は,MLLMにおける階層的空間認知を測定するための最初の体系的枠組みを確立し,将来的な空間知能システムの基礎を築いた。
関連論文リスト
- How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective [103.44502230776352]
視覚言語モデル(VLM)における視覚空間推論(VSR)の系統的研究について述べる。
空間インテリジェンスを3つのレベル,すなわち基本的な知覚,空間理解,空間計画,および空間インテリジェンスベンチマークSIBenchに分類した。
論文 参考訳(メタデータ) (2025-09-23T12:00:14Z) - 11Plus-Bench: Demystifying Multimodal LLM Spatial Reasoning with Cognitive-Inspired Analysis [54.24689751375923]
本研究では,最先端MLLMの空間的推論能力を評価するためのシステム評価フレームワークを提案する。
14個のMLLMの実験と人間の評価により、現在のMLLMは空間認知の早期の兆候を示すことが明らかとなった。
これらの知見は,現在のMLLMの空間的推論能力の出現能力と限界の両方を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-08-27T17:22:34Z) - SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。
既存のMLLMは3次元空間認識と理解能力を持っているか?
論文 参考訳(メタデータ) (2025-05-22T17:59:03Z) - Scaling and Beyond: Advancing Spatial Reasoning in MLLMs Requires New Recipes [84.1059652774853]
MLLM(Multimodal Large Language Models)は、一般的な視覚言語タスクにおいて印象的な性能を示す。
近年の研究では、空間的推論能力の限界が明らかにされている。
この空間的推論の欠如は、MLLMが物理的世界と効果的に相互作用する能力を著しく制限する。
論文 参考訳(メタデータ) (2025-04-21T11:48:39Z) - SPHERE: Unveiling Spatial Blind Spots in Vision-Language Models Through Hierarchical Evaluation [7.659514491338669]
現在の視覚言語モデルは、基本的な空間的手がかりを把握できるが、人間のような理解や現実世界の応用に必要な多次元空間的推論に苦慮している。
我々は,新しい人間注釈付きデータセットをサポートする階層的評価フレームワークであるSPHEREを開発した。
最先端モデルのベンチマーク評価では、特に距離と近接性についての推論において、重大な欠陥が示される。
論文 参考訳(メタデータ) (2024-12-17T09:10:55Z) - Sparkle: Mastering Basic Spatial Capabilities in Vision Language Models Elicits Generalization to Spatial Reasoning [36.588008658084895]
視覚言語モデル(VLM)は多くのタスクでうまく機能するが、しばしば空間的推論では失敗する。
評価の結果, 現状のVLMでは, 複合空間問題に対する不正確な答えが得られていることがわかった。
VLMにおける2次元空間推論は,基本空間能力のみに基づいて訓練することで向上する。
論文 参考訳(メタデータ) (2024-10-21T16:26:09Z) - SpaRC and SpaRP: Spatial Reasoning Characterization and Path Generation for Understanding Spatial Reasoning Capability of Large Language Models [70.01883340129204]
空間推論は 生物学的と人工知能の両方において 重要な要素です
本稿では,現在最先端の大規模言語モデル (LLM) の空間的推論能力について包括的に検討する。
論文 参考訳(メタデータ) (2024-06-07T01:06:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。