論文の概要: FRIEDA: Benchmarking Multi-Step Cartographic Reasoning in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2512.08016v1
- Date: Mon, 08 Dec 2025 20:18:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.714131
- Title: FRIEDA: Benchmarking Multi-Step Cartographic Reasoning in Vision-Language Models
- Title(参考訳): FRIEDA:視覚言語モデルにおけるマルチステップカルトグラフィー推論のベンチマーク
- Authors: Jiyoon Pyo, Yuankun Jiao, Dongwon Jung, Zekun Li, Leeje Jang, Sofia Kirsanova, Jina Kim, Yijun Lin, Qin Liu, Junyi Xie, Hadi Askari, Nan Xu, Muhao Chen, Yao-Yi Chiang,
- Abstract要約: 本稿では,LVLMにおける複雑な地図解析のためのベンチマークであるFRIEDAを紹介する。
FRIEDAは、トポロジカル(境界、等角、内部)、メートル法(距離)、方向(方位)の3つのカテゴリを対象とする。
最強のモデルであるGemini-2.5-ProとGPT-5-Thinkでさえ、わずか38.20%と37.20%の精度しか達成していない。
- 参考スコア(独自算出の注目度): 38.67763789694245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cartographic reasoning is the skill of interpreting geographic relationships by aligning legends, map scales, compass directions, map texts, and geometries across one or more map images. Although essential as a concrete cognitive capability and for critical tasks such as disaster response and urban planning, it remains largely unevaluated. Building on progress in chart and infographic understanding, recent large vision language model studies on map visual question-answering often treat maps as a special case of charts. In contrast, map VQA demands comprehension of layered symbology (e.g., symbols, geometries, and text labels) as well as spatial relations tied to orientation and distance that often span multiple maps and are not captured by chart-style evaluations. To address this gap, we introduce FRIEDA, a benchmark for testing complex open-ended cartographic reasoning in LVLMs. FRIEDA sources real map images from documents and reports in various domains and geographical areas. Following classifications in Geographic Information System (GIS) literature, FRIEDA targets all three categories of spatial relations: topological (border, equal, intersect, within), metric (distance), and directional (orientation). All questions require multi-step inference, and many require cross-map grounding and reasoning. We evaluate eleven state-of-the-art LVLMs under two settings: (1) the direct setting, where we provide the maps relevant to the question, and (2) the contextual setting, where the model may have to identify the maps relevant to the question before reasoning. Even the strongest models, Gemini-2.5-Pro and GPT-5-Think, achieve only 38.20% and 37.20% accuracy, respectively, far below human performance of 84.87%. These results reveal a persistent gap in multi-step cartographic reasoning, positioning FRIEDA as a rigorous benchmark to drive progress on spatial intelligence in LVLMs.
- Abstract(参考訳): 地図推論は、伝説、地図スケール、コンパス方向、地図テキスト、ジオメトリーを1つ以上の地図画像に並べて、地理的関係を解釈する技術である。
具体的な認知能力や災害対応や都市計画といった重要な業務に欠かせないものであるが、大半は未評価のままである。
図表とインフォグラフィック理解の進歩に基づいて、近年の大規模視覚言語モデルによる、地図の視覚的質問応答の研究は、チャートの特別な場合としてしばしば地図を扱います。
対照的に、地図VQAは階層化された記号(記号、ジオメトリー、テキストラベルなど)の理解と、複数の地図にまたがる方向や距離に結びついており、チャート形式の評価では捉えられない空間的関係を要求している。
このギャップに対処するために、LVLMにおける複雑なオープンエンド・カルトグラフィー推論のベンチマークであるFRIEDAを紹介する。
FRIEDAは、様々な領域や地理的領域の文書やレポートから実際の地図画像を生成する。
地理情報システム(GIS)文学における分類に従って、FRIEDAは、位相的(境界、等間隔、内部)、距離(距離)、方向(方向)の3つの分野を対象とする。
すべての質問は多段階推論を必要とし、多くはクロスマップグラウンドと推論を必要とする。
我々は,(1) 直接設定,(2) 質問に関連する地図を提供する,(2) 文脈設定,(2) 推論の前に質問に関連する地図を識別しなければならない,という2つの条件の下で,最先端のLVLMを11つ評価する。
最も強力なモデルであるGemini-2.5-ProとGPT-5-Thinkでさえ、それぞれ38.20%と37.20%の精度しか達成していない。
これらの結果から, FRIEDAを厳密なベンチマークとして位置づけ, LVLMにおける空間知能の進歩を推し進めた。
関連論文リスト
- CartoMapQA: A Fundamental Benchmark Dataset Evaluating Vision-Language Models on Cartographic Map Understanding [5.925837407110905]
カルトマップQA(CartoMapQA)は、視覚言語モデルによる地図の理解を評価するためのベンチマークである。
データセットには2000以上のサンプルが含まれており、それぞれが地図地図、質問(オープンエンドまたは複数選択の回答)、接地真実の回答で構成されている。
論文 参考訳(メタデータ) (2025-12-03T08:25:22Z) - MapIQ: Evaluating Multimodal Large Language Models for Map Question Answering [20.408123315555834]
本稿では,3種類のマップに対して14,706の質問応答ペアからなるベンチマークデータセットであるMapIQを紹介する。
本研究では、6つの視覚的分析タスクを用いて複数のMLLMを評価し、それらの性能と人間のベースラインを比較した。
地図設計の変更の影響を調べる実験は、MLLMの堅牢性と感度に関する洞察を与える。
論文 参考訳(メタデータ) (2025-07-15T18:02:57Z) - EarthMapper: Visual Autoregressive Models for Controllable Bidirectional Satellite-Map Translation [50.433911327489554]
制御可能な衛星マップ翻訳のための新しいフレームワークであるEarthMapperを紹介する。
また,中国38都市を対象とした302,132組の衛星マップからなる大規模データセットであるCNSatMapをコントリビュートした。
CNSatMapとNew Yorkデータセットの実験は、EarthMapperの優れたパフォーマンスを実証している。
論文 参考訳(メタデータ) (2025-04-28T02:41:12Z) - PEACE: Empowering Geologic Map Holistic Understanding with MLLMs [64.58959634712215]
地質図は地質学の基本的な図として、地球の地下と地表の構造と構成に関する重要な洞察を提供する。
その重要性にもかかわらず、現在のマルチモーダル大言語モデル(MLLM)は地質図の理解に乏しいことが多い。
このギャップを定量化するために、地質地図理解においてMLLMを評価するための最初のベンチマークであるGeoMap-Benchを構築した。
論文 参考訳(メタデータ) (2025-01-10T18:59:42Z) - MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models [7.422346909538787]
MapEvalは、3つの異なるタスクにわたる基礎モデルを評価するために設計されたベンチマークである。
空間的関係、ナビゲーション、旅行計画、現実世界の地図の相互作用をカバーしている。
ロングコンテキスト推論、APIインタラクション、ビジュアルマップ分析を扱うモデルが必要です。
論文 参考訳(メタデータ) (2024-12-31T07:20:32Z) - MAPWise: Evaluating Vision-Language Models for Advanced Map Queries [47.15503716894445]
本研究では,視覚言語モデル(VLM)の有効性について検討した。
我々は3つの地理的地域(アメリカ合衆国、インド、中国)の地図からなる新しい地図に基づく質問回答ベンチマークを導入する。
このベンチマークには43種類の質問テンプレートが組み込まれており、相対空間関係の微妙な理解、複雑な地図の特徴、複雑な推論が必要である。
論文 参考訳(メタデータ) (2024-08-30T20:57:34Z) - GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.08664336835741]
我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。
オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。
我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
論文 参考訳(メタデータ) (2023-05-11T03:21:56Z) - BEVBert: Multimodal Map Pre-training for Language-guided Navigation [75.23388288113817]
視覚・言語ナビゲーション(VLN)における空間認識型マップベース事前学習パラダイムを提案する。
我々は,グローバルなトポロジカルマップにおけるナビゲーション依存性をモデル化しながら,不完全な観測を明示的に集約し,重複を取り除くための局所距離マップを構築した。
ハイブリッドマップをベースとして,マルチモーダルマップ表現を学習するための事前学習フレームワークを考案し,空間認識型クロスモーダル推論を強化し,言語誘導ナビゲーションの目標を導出する。
論文 参考訳(メタデータ) (2022-12-08T16:27:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。