論文の概要: Why Do MLLMs Struggle with Spatial Understanding? A Systematic Analysis from Data to Architecture
- arxiv url: http://arxiv.org/abs/2509.02359v1
- Date: Tue, 02 Sep 2025 14:22:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.061677
- Title: Why Do MLLMs Struggle with Spatial Understanding? A Systematic Analysis from Data to Architecture
- Title(参考訳): MLLMが空間的理解と相互作用する理由 : データからアーキテクチャへの体系的分析
- Authors: Wanyue Zhang, Yibin Huang, Yangbin Xu, JingJing Huang, Helu Zhi, Shuo Ren, Wang Xu, Jiajun Zhang,
- Abstract要約: データと建築の両面から空間的理解を体系的に分析する。
データの観点からは、トレーニングデータが増加するにつれて空間理解の性能は急速に収束する。
アーキテクチャの観点からは、空間的理解は言語モデルよりも視覚エンコーダ内の位置エンコーダに大きく依存していることが分かる。
- 参考スコア(独自算出の注目度): 16.15618237704827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial understanding is essential for Multimodal Large Language Models (MLLMs) to support perception, reasoning, and planning in embodied environments. Despite recent progress, existing studies reveal that MLLMs still struggle with spatial understanding. However, existing research lacks a comprehensive and systematic evaluation of these limitations, often restricted to isolated scenarios, such as single-view or video. In this work, we present a systematic analysis of spatial understanding from both data and architectural perspectives across three representative scenarios: single-view, multi-view, and video. We propose a benchmark named MulSeT (Multi-view Spatial Understanding Tasks), and design a series of experiments to analyze the spatial reasoning capabilities of MLLMs. From the data perspective, the performance of spatial understanding converges quickly as the training data increases, and the upper bound is relatively low, especially for tasks that require spatial imagination. This indicates that merely expanding training data is insufficient to achieve satisfactory performance. From the architectural perspective, we find that spatial understanding relies more heavily on the positional encoding within the visual encoder than within the language model, in both cascaded and native MLLMs. Moreover, we explore reasoning injection and envision future improvements through architectural design to optimize spatial understanding. These insights shed light on the limitations of current MLLMs and suggest new directions for improving spatial reasoning capabilities through data scaling and architectural tuning.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)は, 環境認識, 推論, 計画を支援するために, 空間的理解が不可欠である。
近年の進歩にもかかわらず、MLLMが空間的理解に苦戦していることが明らかになっている。
しかし、既存の研究はこれらの制限を包括的かつ体系的に評価しておらず、多くの場合、シングルビューやビデオのような独立したシナリオに制限されている。
本研究では,データと建築の両面から空間的理解を体系的に分析し,一視点,多視点,ビデオの3つの代表的なシナリオについて述べる。
我々は,MulSeT (Multi-view Spatial Understanding Tasks) というベンチマークを提案し,MLLMの空間的推論能力を解析するための一連の実験を設計する。
データの観点からは、トレーニングデータが増加するにつれて空間理解の性能は急速に収束し、特に空間的想像力を必要とするタスクの場合、上界は比較的低い。
これは、単にトレーニングデータを拡張しても、十分なパフォーマンスを達成するには不十分であることを示している。
建築面から見ると、空間的理解は言語モデルよりも視覚エンコーダ内の位置エンコーディングに大きく依存している。
さらに、推論注入について検討し、空間的理解を最適化するアーキテクチャ設計による将来の改善を構想する。
これらの知見は、現在のMLLMの限界に光を当て、データスケーリングとアーキテクチャチューニングを通じて空間推論能力を改善するための新しい方向性を提案する。
関連論文リスト
- Abstractive Visual Understanding of Multi-modal Structured Knowledge: A New Perspective for MLLM Evaluation [48.462734327375536]
MLLM(Multi-modal large language model)は、多種多様なシナリオやオブジェクトの包括的理解を可能にする。
MLLMの評価ベンチマークやリーダーボードの普及にもかかわらず、彼らはMLLMが視覚的に現れる構造化された抽象化で世界的知識を理解する上で重要な能力を見落としている。
構造化理解のためのマルチモーダルマップを基盤とした,革新的なベンチマークであるM3STRを提案する。
その結果,抽象的視覚情報を構造化知識で処理し,MLLMの総合的推論能力を向上させるための重要な軌道を図った。
論文 参考訳(メタデータ) (2025-06-02T04:00:35Z) - Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence [13.168559963356952]
純粋に2次元の観察から空間的推論を行う新しいフレームワークであるSpatial-MLLMを提案する。
我々の重要な洞察は、フィードフォワード視覚幾何学基礎モデルに先立って、強い構造を解き放つことである。
コネクタは、両方の機能を統合された視覚トークンに統合し、空間的理解を強化する。
論文 参考訳(メタデータ) (2025-05-29T17:59:04Z) - SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。
既存のMLLMは3次元空間認識と理解能力を持っているか?
論文 参考訳(メタデータ) (2025-05-22T17:59:03Z) - EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks [24.41705039390567]
EmbodiedVSR (Embodied Visual Space Reasoning) は動的シーングラフ誘導型Chain-of-Thought (CoT)推論を統合する新しいフレームワークである。
本手法はタスク固有の微調整なしでゼロショット空間推論を可能にする。
実験により,我々のフレームワークは,既存のMLLM法よりも精度と推論コヒーレンスにおいて優れていることが示された。
論文 参考訳(メタデータ) (2025-03-14T05:06:07Z) - GSR-BENCH: A Benchmark for Grounded Spatial Reasoning Evaluation via Multimodal LLMs [3.2688425993442696]
画像中の物体間の空間的関係を理解する能力は、視覚的推論の重要な構成要素である。
我々は、以前リリースされたWhat'sUpデータセットを拡張し、空間関係理解のための新しい包括的評価を提案する。
論文 参考訳(メタデータ) (2024-06-19T06:15:26Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。