論文の概要: EarthSpatialBench: Benchmarking Spatial Reasoning Capabilities of Multimodal LLMs on Earth Imagery
- arxiv url: http://arxiv.org/abs/2602.15918v1
- Date: Tue, 17 Feb 2026 06:08:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.393742
- Title: EarthSpatialBench: Benchmarking Spatial Reasoning Capabilities of Multimodal LLMs on Earth Imagery
- Title(参考訳): EarthSpatialBench:地球画像上のマルチモーダルLLMの空間推論能力のベンチマーク
- Authors: Zelin Xu, Yupu Zhang, Saugat Adhikari, Saiful Islam, Tingsong Xiao, Zibo Liu, Shigang Chen, Da Yan, Zhe Jiang,
- Abstract要約: 既存の地球画像のベンチマークは主に2次元空間接地、画像キャプション、粗い空間関係に焦点を当てている。
我々は,地球画像上のMLLMの空間的推論を評価するための総合的なベンチマークである textbfEarthSpatialBench を提案する。
1)空間距離と方向に関する定性的かつ定量的な推論、(2)系統的トポロジカルな関係、(3)単目的クエリ、オブジェクトペアクエリ、および合成集約グループクエリ、(4)テキスト記述、ビジュアルオーバーレイ、および2次元境界ボックス、ポリライン、ポリゴンを含む明示的な幾何学座標によって表現されるオブジェクト参照。
- 参考スコア(独自算出の注目度): 16.896854321525918
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benchmarking spatial reasoning in multimodal large language models (MLLMs) has attracted growing interest in computer vision due to its importance for embodied AI and other agentic systems that require precise interaction with the physical world. However, spatial reasoning on Earth imagery has lagged behind, as it uniquely involves grounding objects in georeferenced images and quantitatively reasoning about distances, directions, and topological relations using both visual cues and vector geometry coordinates (e.g., 2D bounding boxes, polylines, and polygons). Existing benchmarks for Earth imagery primarily focus on 2D spatial grounding, image captioning, and coarse spatial relations (e.g., simple directional or proximity cues). They lack support for quantitative direction and distance reasoning, systematic topological relations, and complex object geometries beyond bounding boxes. To fill this gap, we propose \textbf{EarthSpatialBench}, a comprehensive benchmark for evaluating spatial reasoning in MLLMs on Earth imagery. The benchmark contains over 325K question-answer pairs spanning: (1) qualitative and quantitative reasoning about spatial distance and direction; (2) systematic topological relations; (3) single-object queries, object-pair queries, and compositional aggregate group queries; and (4) object references expressed via textual descriptions, visual overlays, and explicit geometry coordinates, including 2D bounding boxes, polylines, and polygons. We conducted extensive experiments on both open-source and proprietary models to identify limitations in the spatial reasoning of MLLMs.
- Abstract(参考訳): マルチモーダルな大言語モデル(MLLM)における空間推論のベンチマークは、物理的世界との正確な相互作用を必要とするAIやその他のエージェントシステムの重要性から、コンピュータビジョンへの関心が高まっている。
しかし、地球画像上の空間的推論は、ジオレファレンス画像中の物体のグラウンド化と、視覚的キューとベクトル幾何学座標(例えば、2次元境界ボックス、ポリライン、ポリゴン)を用いて距離、方向、および位相的関係を定量的に推論することによって、後れを取っている。
既存の地球画像のベンチマークは、主に2次元の空間接地、画像キャプション、粗い空間関係(例えば、単純な方向または近接の手がかり)に焦点を当てている。
それらは、量的方向と距離の推論、体系的なトポロジカルな関係、および境界ボックスを超えた複雑なオブジェクトジオメトリのサポートを欠いている。
このギャップを埋めるために、地球画像上のMLLMの空間的推論を評価するための総合的なベンチマークである「textbf{EarthSpatialBench}」を提案する。
本ベンチマークは,(1)空間距離と方向に関する定性的かつ定量的な推論,(2)系統的トポロジカルな関係,(3)単目的クエリ,オブジェクトペアクエリ,および合成集約グループクエリ,(4)テキスト記述,視覚的オーバーレイ,および2次元境界ボックス,ポリゴンを含む明示的な幾何学座標によって表現されるオブジェクト参照を含む325K以上の質問応答対を含む。
我々は,MLLMの空間的推論における制約を特定するために,オープンソースモデルとプロプライエタリモデルの両方で広範な実験を行った。
関連論文リスト
- Thinking with Geometry: Active Geometry Integration for Spatial Reasoning [68.59084007360615]
我々は,能動的知覚にパラダイム・パッシブ・フュージョンをシフトさせるフレームワークであるGeoThinkerを提案する。
特徴混合の代わりに、GeoThinkerはモデルが内部の推論要求に応じて条件付けられた幾何学的証拠を選択的に検索することを可能にする。
その結果,次世代の空間知能には,空間構造を積極的に統合する能力が不可欠であることが示唆された。
論文 参考訳(メタデータ) (2026-02-05T18:59:32Z) - Video2Layout: Recall and Reconstruct Metric-Grounded Cognitive Map for Spatial Reasoning [19.549136366694572]
Video2は、ビデオからメートル法で配置された空間レイアウトを再構築するためのフレームワークである。
このフレームワークは、オブジェクト間の物理サイズとオブジェクトサイズを定量化するために、連続的なオブジェクト境界座標を使用する。
我々のモデルであるV2LO-7Bは、グリッドマップで訓練されたモデルよりも平均4.92%向上した。
論文 参考訳(メタデータ) (2025-11-20T08:57:14Z) - MATHGLANCE: Multimodal Large Language Models Do Not Know Where to Look in Mathematical Diagrams [65.02628814094639]
ダイアグラムは視覚言語の基本形として機能し、複雑な概念と、構造化されたシンボル、形状、空間的配置を通してそれらの相互関係を表現する。
現在のベンチマークでは知覚と推論のタスクが明確化されており、マルチモーダルな大規模言語モデルが表面的なパターン認識以上の数学的図形を真に理解しているかどうかを評価することは困難である。
MLLMにおける数学的知覚の分離と評価を目的としたベンチマークであるMATHGLANCEを紹介する。
幾何学的プリミティブと正確な空間関係を付加した200K構造幾何画像テキストの知覚指向データセットであるGeoPePを構築した。
論文 参考訳(メタデータ) (2025-03-26T17:30:41Z) - Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。
次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文 参考訳(メタデータ) (2025-03-25T14:34:06Z) - Benchmarking Spatial Relationships in Text-to-Image Generation [102.62422723894232]
本研究では,オブジェクト間の空間的関係を正確に生成するテキスト・ツー・イメージモデルについて検討する。
画像中にテキストで記述された空間関係がどれだけ正確に生成されるかを測定する評価指標であるVISORを提案する。
我々の実験では、最先端のT2Iモデルは高画質であるが、複数のオブジェクトを生成できる能力や、それらの間の空間的関係が著しく制限されていることが判明した。
論文 参考訳(メタデータ) (2022-12-20T06:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。