論文の概要: From Indoor to Open World: Revealing the Spatial Reasoning Gap in MLLMs
- arxiv url: http://arxiv.org/abs/2512.19683v2
- Date: Mon, 29 Dec 2025 03:39:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 13:10:31.512179
- Title: From Indoor to Open World: Revealing the Spatial Reasoning Gap in MLLMs
- Title(参考訳): 屋内からオープンワールド:MLLMにおける空間推論ギャップの解明
- Authors: Mingrui Wu, Zhaozhi Wang, Fangjinhua Wang, Jiaolong Yang, Marc Pollefeys, Tong Zhang,
- Abstract要約: 我々は、ステレオカメラ、LiDAR、IMU/GPSセンサーで撮影された歩行者の視線映像から構築したベンチマークを紹介する。
このデータセットは、計量的に正確な3D情報を提供し、空間的推論質問の自動生成を可能にする。
評価の結果、構造化屋内ベンチマークで観測された性能向上は、オープンワールド環境では消滅することが明らかとなった。
- 参考スコア(独自算出の注目度): 65.04549036809557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Multimodal Large Language Models (MLLMs) have achieved impressive performance on semantic tasks, their spatial intelligence--crucial for robust and grounded AI systems--remains underdeveloped. Existing benchmarks fall short of diagnosing this limitation: they either focus on overly simplified qualitative reasoning or rely on domain-specific indoor data, constrained by the lack of outdoor datasets with verifiable metric ground truth. To bridge this gap, we introduce a large-scale benchmark built from pedestrian-perspective videos captured with synchronized stereo cameras, LiDAR, and IMU/GPS sensors. This dataset provides metrically precise 3D information, enabling the automatic generation of spatial reasoning questions that span a hierarchical spectrum--from qualitative relational reasoning to quantitative metric and kinematic understanding. Evaluations reveal that the performance gains observed in structured indoor benchmarks vanish in open-world settings. Further analysis using synthetic abnormal scenes and blinding tests confirms that current MLLMs depend heavily on linguistic priors instead of grounded visual reasoning. Our benchmark thus provides a principled platform for diagnosing these limitations and advancing physically grounded spatial intelligence.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)はセマンティックなタスクにおいて印象的なパフォーマンスを達成したが、その空間的知性 - 堅牢で基礎的なAIシステムにとっての精査 - はまだ未発達である。
既存のベンチマークは、この制限を診断するに足りていない:彼らは過度に単純化された質的推論に焦点を当てるか、または、検証可能なメートル法基底真理を持つ屋外データセットの欠如によって制約されたドメイン固有の屋内データに依存している。
このギャップを埋めるために、私たちは、ステレオカメラ、LiDAR、IMU/GPSセンサーで撮影された歩行者の視線ビデオから構築された大規模なベンチマークを導入しました。
このデータセットは、定量的に正確な3D情報を提供し、定性的リレーショナル推論から計量的および運動論的理解まで、階層的なスペクトルにまたがる空間的推論質問の自動生成を可能にする。
評価の結果、構造化屋内ベンチマークで観測された性能向上は、オープンワールド環境では消滅することが明らかとなった。
合成異常シーンとブラインドテストによるさらなる分析により、現在のMLLMは、接地された視覚的推論ではなく、言語的先行に大きく依存していることが確認された。
我々のベンチマークは、これらの制限を診断し、物理的に接地された空間知性を向上させるための、原則化されたプラットフォームを提供する。
関連論文リスト
- Scaling Spatial Reasoning in MLLMs through Programmatic Data Synthesis [8.60591720958037]
VLM(Vision-Language Models)はスケーラブルだが構造的に剛性があり、手動のアノテーションは言語的に多様だが拡張不可能である。
本稿では,シミュレータと大規模モデルを活用したこのジレンマを克服する新しいフレームワークSP-RITEを紹介する。
我々は,3つのシミュレータ,11k以上のシーン,300k以上の画像/映像のインストラクションチューニングペアを含むデータセットをキュレートした。
我々のデータに基づいて訓練されたVLMは、複数の空間ベンチマークにおいて大きな性能向上を達成できることを実証する。
論文 参考訳(メタデータ) (2025-12-18T06:30:08Z) - Why Do MLLMs Struggle with Spatial Understanding? A Systematic Analysis from Data to Architecture [16.15618237704827]
データと建築の両面から空間的理解を体系的に分析する。
データの観点からは、トレーニングデータが増加するにつれて空間理解の性能は急速に収束する。
アーキテクチャの観点からは、空間的理解は言語モデルよりも視覚エンコーダ内の位置エンコーダに大きく依存していることが分かる。
論文 参考訳(メタデータ) (2025-09-02T14:22:43Z) - MazeEval: A Benchmark for Testing Sequential Decision-Making in Language Models [0.0679877553227375]
本稿では,大規模言語モデルにおける純粋空間推論の分離と評価を目的としたベンチマークであるMazeEvalを紹介する。
我々は,英語とアイスランド語で同一の迷路にまたがる8つの最先端LLMを評価し,空間能力の言語間移動を評価する。
論文 参考訳(メタデータ) (2025-07-27T19:33:45Z) - OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding [50.72259772580637]
エージェントの観点から,オンライン時空間理解を評価するためのベンチマークOST-Benchを紹介する。
効率的なデータ収集パイプライン上に構築されたOST-Benchは、ScanNet、Matterport3D、ARKitScenesから収集された1.4kのシーンと10kの質問応答ペアで構成されている。
複雑な空間的推論要求と長期記憶検索要求の両方が、2つの別々の軸に沿ってモデル性能を著しく低下させることがわかった。
論文 参考訳(メタデータ) (2025-07-10T17:56:07Z) - FloorplanQA: A Benchmark for Spatial Reasoning in LLMs using Structured Representations [78.65988445433844]
FloorplanQAは、大規模言語モデルにおける空間的推論を評価するための診断ベンチマークである。
このベンチマークでは、距離測定、可視性、経路探索、制約空間内のオブジェクト配置など、中核的な空間的タスクをカバーしている。
論文 参考訳(メタデータ) (2025-07-10T11:16:48Z) - SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。
既存のMLLMは3次元空間認識と理解能力を持っているか?
論文 参考訳(メタデータ) (2025-05-22T17:59:03Z) - Open3D-VQA: A Benchmark for Comprehensive Spatial Reasoning with Multimodal Large Language Model in Open Space [38.482463743451625]
本稿では,空から見た複雑な空間関係を推論するMLLMの能力を評価するための新しいベンチマークであるOpen3D-VQAを提案する。
このベンチマークは、7つの一般的な空間的推論タスクにまたがる73kのQAペアで構成されている。
論文 参考訳(メタデータ) (2025-03-14T05:35:38Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。