論文の概要: EarthSpatialBench: Benchmarking Spatial Reasoning Capabilities of Multimodal LLMs on Earth Imagery
- arxiv url: http://arxiv.org/abs/2602.15918v1
- Date: Tue, 17 Feb 2026 06:08:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.393742
- Title: EarthSpatialBench: Benchmarking Spatial Reasoning Capabilities of Multimodal LLMs on Earth Imagery
- Title(参考訳): EarthSpatialBench:地球画像上のマルチモーダルLLMの空間推論能力のベンチマーク
- Authors: Zelin Xu, Yupu Zhang, Saugat Adhikari, Saiful Islam, Tingsong Xiao, Zibo Liu, Shigang Chen, Da Yan, Zhe Jiang,
- Abstract要約: 既存の地球画像のベンチマークは主に2次元空間接地、画像キャプション、粗い空間関係に焦点を当てている。
我々は,地球画像上のMLLMの空間的推論を評価するための総合的なベンチマークである textbfEarthSpatialBench を提案する。
1)空間距離と方向に関する定性的かつ定量的な推論、(2)系統的トポロジカルな関係、(3)単目的クエリ、オブジェクトペアクエリ、および合成集約グループクエリ、(4)テキスト記述、ビジュアルオーバーレイ、および2次元境界ボックス、ポリライン、ポリゴンを含む明示的な幾何学座標によって表現されるオブジェクト参照。
- 参考スコア(独自算出の注目度): 16.896854321525918
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benchmarking spatial reasoning in multimodal large language models (MLLMs) has attracted growing interest in computer vision due to its importance for embodied AI and other agentic systems that require precise interaction with the physical world. However, spatial reasoning on Earth imagery has lagged behind, as it uniquely involves grounding objects in georeferenced images and quantitatively reasoning about distances, directions, and topological relations using both visual cues and vector geometry coordinates (e.g., 2D bounding boxes, polylines, and polygons). Existing benchmarks for Earth imagery primarily focus on 2D spatial grounding, image captioning, and coarse spatial relations (e.g., simple directional or proximity cues). They lack support for quantitative direction and distance reasoning, systematic topological relations, and complex object geometries beyond bounding boxes. To fill this gap, we propose \textbf{EarthSpatialBench}, a comprehensive benchmark for evaluating spatial reasoning in MLLMs on Earth imagery. The benchmark contains over 325K question-answer pairs spanning: (1) qualitative and quantitative reasoning about spatial distance and direction; (2) systematic topological relations; (3) single-object queries, object-pair queries, and compositional aggregate group queries; and (4) object references expressed via textual descriptions, visual overlays, and explicit geometry coordinates, including 2D bounding boxes, polylines, and polygons. We conducted extensive experiments on both open-source and proprietary models to identify limitations in the spatial reasoning of MLLMs.
- Abstract(参考訳): マルチモーダルな大言語モデル(MLLM)における空間推論のベンチマークは、物理的世界との正確な相互作用を必要とするAIやその他のエージェントシステムの重要性から、コンピュータビジョンへの関心が高まっている。
しかし、地球画像上の空間的推論は、ジオレファレンス画像中の物体のグラウンド化と、視覚的キューとベクトル幾何学座標(例えば、2次元境界ボックス、ポリライン、ポリゴン)を用いて距離、方向、および位相的関係を定量的に推論することによって、後れを取っている。
既存の地球画像のベンチマークは、主に2次元の空間接地、画像キャプション、粗い空間関係(例えば、単純な方向または近接の手がかり)に焦点を当てている。
それらは、量的方向と距離の推論、体系的なトポロジカルな関係、および境界ボックスを超えた複雑なオブジェクトジオメトリのサポートを欠いている。
このギャップを埋めるために、地球画像上のMLLMの空間的推論を評価するための総合的なベンチマークである「textbf{EarthSpatialBench}」を提案する。
本ベンチマークは,(1)空間距離と方向に関する定性的かつ定量的な推論,(2)系統的トポロジカルな関係,(3)単目的クエリ,オブジェクトペアクエリ,および合成集約グループクエリ,(4)テキスト記述,視覚的オーバーレイ,および2次元境界ボックス,ポリゴンを含む明示的な幾何学座標によって表現されるオブジェクト参照を含む325K以上の質問応答対を含む。
我々は,MLLMの空間的推論における制約を特定するために,オープンソースモデルとプロプライエタリモデルの両方で広範な実験を行った。
関連論文リスト
- Thinking with Geometry: Active Geometry Integration for Spatial Reasoning [68.59084007360615]
我々は,能動的知覚にパラダイム・パッシブ・フュージョンをシフトさせるフレームワークであるGeoThinkerを提案する。
特徴混合の代わりに、GeoThinkerはモデルが内部の推論要求に応じて条件付けられた幾何学的証拠を選択的に検索することを可能にする。
その結果,次世代の空間知能には,空間構造を積極的に統合する能力が不可欠であることが示唆された。
論文 参考訳(メタデータ) (2026-02-05T18:59:32Z) - Seeing through Imagination: Learning Scene Geometry via Implicit Spatial World Modeling [68.14113731953971]
本稿では,人間のような想像力をシミュレートするインプリシット・スパットIaLwOrldモデリングパラダイムMILOを紹介する。
提案手法は,複数のベースラインとベンチマークにまたがる空間推論能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2025-12-01T16:01:41Z) - Video2Layout: Recall and Reconstruct Metric-Grounded Cognitive Map for Spatial Reasoning [19.549136366694572]
Video2は、ビデオからメートル法で配置された空間レイアウトを再構築するためのフレームワークである。
このフレームワークは、オブジェクト間の物理サイズとオブジェクトサイズを定量化するために、連続的なオブジェクト境界座標を使用する。
我々のモデルであるV2LO-7Bは、グリッドマップで訓練されたモデルよりも平均4.92%向上した。
論文 参考訳(メタデータ) (2025-11-20T08:57:14Z) - DynaSolidGeo: A Dynamic Benchmark for Genuine Spatial Mathematical Reasoning of VLMs in Solid Geometry [21.08408074777344]
DynaSolidGeoは視覚言語モデル(VLM)における真の空間的推論を評価するためのベンチマークである
専門家による503のシード質問が含まれており、原則として、多様なマルチモーダルテキストビジュアルインスタンスを動的に生成することができる。
我々は、論理的妥当性と因果コヒーレンスを測定するために、専門家アノテート推論チェーンに基づくプロセス評価を取り入れた。
論文 参考訳(メタデータ) (2025-10-25T15:49:45Z) - GRACE: Estimating Geometry-level 3D Human-Scene Contact from 2D Images [54.602947113980655]
人景接触の幾何レベルを推定することは、特定の接触面点を3次元の人間ジオメトリに接することを目的としている。
GRACE(Geometry-level Reasoning for 3D Human-scene Contact Estimation)は,3次元接触推定のための新しいパラダイムである。
ポイントクラウドエンコーダ/デコーダアーキテクチャと階層的特徴抽出と融合モジュールが組み込まれている。
論文 参考訳(メタデータ) (2025-05-10T09:25:46Z) - MATHGLANCE: Multimodal Large Language Models Do Not Know Where to Look in Mathematical Diagrams [65.02628814094639]
ダイアグラムは視覚言語の基本形として機能し、複雑な概念と、構造化されたシンボル、形状、空間的配置を通してそれらの相互関係を表現する。
現在のベンチマークでは知覚と推論のタスクが明確化されており、マルチモーダルな大規模言語モデルが表面的なパターン認識以上の数学的図形を真に理解しているかどうかを評価することは困難である。
MLLMにおける数学的知覚の分離と評価を目的としたベンチマークであるMATHGLANCEを紹介する。
幾何学的プリミティブと正確な空間関係を付加した200K構造幾何画像テキストの知覚指向データセットであるGeoPePを構築した。
論文 参考訳(メタデータ) (2025-03-26T17:30:41Z) - Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。
次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文 参考訳(メタデータ) (2025-03-25T14:34:06Z) - Space3D-Bench: Spatial 3D Question Answering Benchmark [49.259397521459114]
Space3D-Benchは、Replicaデータセットのシーンに関連する1000の一般的な空間的質問と回答の集合である。
本研究では,事前定義された接地真実解に基づいて,自然言語応答を評価評価するシステムを提案する。
最後に,基礎モデルの世界理解をリッチな文脈検索と統合したRAG3D-Chatというベースラインを導入する。
論文 参考訳(メタデータ) (2024-08-29T16:05:22Z) - Benchmarking Spatial Relationships in Text-to-Image Generation [102.62422723894232]
本研究では,オブジェクト間の空間的関係を正確に生成するテキスト・ツー・イメージモデルについて検討する。
画像中にテキストで記述された空間関係がどれだけ正確に生成されるかを測定する評価指標であるVISORを提案する。
我々の実験では、最先端のT2Iモデルは高画質であるが、複数のオブジェクトを生成できる能力や、それらの間の空間的関係が著しく制限されていることが判明した。
論文 参考訳(メタデータ) (2022-12-20T06:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。