論文の概要: MapVerse: A Benchmark for Geospatial Question Answering on Diverse Real-World Maps
- arxiv url: http://arxiv.org/abs/2602.10518v1
- Date: Wed, 11 Feb 2026 04:36:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.468186
- Title: MapVerse: A Benchmark for Geospatial Question Answering on Diverse Real-World Maps
- Title(参考訳): MapVerse: 異世界地図における地理空間的質問応答のベンチマーク
- Authors: Sharat Bhat, Harshita Khandelwal, Tushar Kataria, Vivek Gupta,
- Abstract要約: MapVerseは、現実世界の地図上に構築された大規模なベンチマークである。
11,837人の人間による質問応答対を1,025の地図で構成している。
我々は、基準線を確立し、推論ギャップを定量化するために、我々のベンチマークに対して10の最先端モデルを評価する。
- 参考スコア(独自算出の注目度): 22.530685223300523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Maps are powerful carriers of structured and contextual knowledge, encompassing geography, demographics, infrastructure, and environmental patterns. Reasoning over such knowledge requires models to integrate spatial relationships, visual cues, real-world context, and domain-specific expertise-capabilities that current large language models (LLMs) and vision-language models (VLMs) still struggle to exhibit consistently. Yet, datasets used to benchmark VLMs on map-based reasoning remain narrow in scope, restricted to specific domains, and heavily reliant on artificially generated content (outputs from LLMs or pipeline-based methods), offering limited depth for evaluating genuine geospatial reasoning. To address this gap, we present MapVerse, a large-scale benchmark built on real-world maps. It comprises 11,837 human-authored question-answer pairs across 1,025 maps, spanning ten diverse map categories and multiple question categories for each. The dataset provides a rich setting for evaluating map reading, interpretation, and multimodal reasoning. We evaluate ten state-of-the-art models against our benchmark to establish baselines and quantify reasoning gaps. Beyond overall performance, we conduct fine-grained categorical analyses to assess model inference across multiple dimensions and investigate the visual factors shaping reasoning outcomes. Our findings reveal that while current VLMs perform competitively on classification-style tasks, both open- and closed-source models fall short on advanced tasks requiring complex spatial reasoning.
- Abstract(参考訳): 地図は、地理的、人口統計学、インフラ、環境パターンを含む、構造的および文脈的知識の強力なキャリアである。
このような知識に対する推論には、現在の大言語モデル(LLM)と視覚言語モデル(VLM)が一貫して表現することに苦慮している空間関係、視覚的手がかり、現実世界のコンテキスト、ドメイン固有の専門能力を統合するモデルが必要である。
しかし、地図ベースの推論でVLMをベンチマークするために使われるデータセットは、スコープが狭く、特定のドメインに限定され、人工的に生成されたコンテンツ(LLMやパイプラインベースの手法からの出力)に大きく依存し、真の地理空間的推論を評価するための限られた深さを提供する。
このギャップに対処するため、実世界の地図上に構築された大規模なベンチマークであるMapVerseを紹介します。
11,837人の人間が作成した1,025の地図にまたがる質問回答ペアで構成され、それぞれ10の多様な地図カテゴリと複数の質問カテゴリで構成されている。
このデータセットは、地図読解、解釈、マルチモーダル推論を評価するためのリッチな設定を提供する。
我々は、基準線を確立し、推論ギャップを定量化するために、我々のベンチマークに対して10の最先端モデルを評価する。
総合的な性能の他に、複数の次元にわたるモデル推論を評価するためのきめ細かい分類分析を行い、推論結果を形作る視覚的要因について検討する。
以上の結果から,現在のVLMは分類型タスクでは競合的に動作するが,複雑な空間的推論を必要とする高度なタスクでは,オープンソースモデルとクローズドソースモデルの両方が不足していることが明らかとなった。
関連論文リスト
- Thinking on Maps: How Foundation Model Agents Explore, Remember, and Reason Map Environments [10.485672302572368]
地図環境は、空間構造を表現するための基本的な媒体であり、基礎モデル(FM)エージェントがそのような環境でどのように理解し、どのように振る舞うかを理解することは、信頼できる地図ベースの推論と応用を可能にするために重要である。
本研究では,FMエージェントがシンボルマップ環境においてどのように探索し,記憶し,理性を示すかを分析するための対話型評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-30T23:04:29Z) - FRIEDA: Benchmarking Multi-Step Cartographic Reasoning in Vision-Language Models [38.67763789694245]
本稿では,LVLMにおける複雑な地図解析のためのベンチマークであるFRIEDAを紹介する。
FRIEDAは、トポロジカル(境界、等角、内部)、メートル法(距離)、方向(方位)の3つのカテゴリを対象とする。
最強のモデルであるGemini-2.5-ProとGPT-5-Thinkでさえ、わずか38.20%と37.20%の精度しか達成していない。
論文 参考訳(メタデータ) (2025-12-08T20:18:15Z) - CartoMapQA: A Fundamental Benchmark Dataset Evaluating Vision-Language Models on Cartographic Map Understanding [5.925837407110905]
カルトマップQA(CartoMapQA)は、視覚言語モデルによる地図の理解を評価するためのベンチマークである。
データセットには2000以上のサンプルが含まれており、それぞれが地図地図、質問(オープンエンドまたは複数選択の回答)、接地真実の回答で構成されている。
論文 参考訳(メタデータ) (2025-12-03T08:25:22Z) - Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps [56.76175383189738]
MLLMの詳細な視覚的理解と空間的推論能力を評価するためのベンチマークであるReasonMapを紹介する。
ReasonMapには、13か国30都市からの高解像度のトランジットマップが含まれており、2つの質問タイプと3つのテンプレートにまたがる1008の質問応答ペアが含まれている。
基本および推論変種を含む15種類のMLLMの包括的評価は、直感的パターンを示す。
論文 参考訳(メタデータ) (2025-05-24T12:33:52Z) - PEACE: Empowering Geologic Map Holistic Understanding with MLLMs [64.58959634712215]
地質図は地質学の基本的な図として、地球の地下と地表の構造と構成に関する重要な洞察を提供する。
その重要性にもかかわらず、現在のマルチモーダル大言語モデル(MLLM)は地質図の理解に乏しいことが多い。
このギャップを定量化するために、地質地図理解においてMLLMを評価するための最初のベンチマークであるGeoMap-Benchを構築した。
論文 参考訳(メタデータ) (2025-01-10T18:59:42Z) - MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models [7.422346909538787]
MapEvalは、3つの異なるタスクにわたる基礎モデルを評価するために設計されたベンチマークである。
空間的関係、ナビゲーション、旅行計画、現実世界の地図の相互作用をカバーしている。
ロングコンテキスト推論、APIインタラクション、ビジュアルマップ分析を扱うモデルが必要です。
論文 参考訳(メタデータ) (2024-12-31T07:20:32Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - MAPWise: Evaluating Vision-Language Models for Advanced Map Queries [47.15503716894445]
本研究では,視覚言語モデル(VLM)の有効性について検討した。
我々は3つの地理的地域(アメリカ合衆国、インド、中国)の地図からなる新しい地図に基づく質問回答ベンチマークを導入する。
このベンチマークには43種類の質問テンプレートが組み込まれており、相対空間関係の微妙な理解、複雑な地図の特徴、複雑な推論が必要である。
論文 参考訳(メタデータ) (2024-08-30T20:57:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。