論文の概要: MapIQ: Benchmarking Multimodal Large Language Models for Map Question Answering
- arxiv url: http://arxiv.org/abs/2507.11625v1
- Date: Tue, 15 Jul 2025 18:02:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.098449
- Title: MapIQ: Benchmarking Multimodal Large Language Models for Map Question Answering
- Title(参考訳): MapIQ:Map Question Answeringのためのマルチモーダル大言語モデルのベンチマーク
- Authors: Varun Srivastava, Fan Lei, Srija Mukhopadhyay, Vivek Gupta, Ross Maciejewski,
- Abstract要約: 本稿では,3種類のマップに対して14,706の質問応答ペアからなるベンチマークデータセットであるMapIQを紹介する。
本研究では、6つの視覚的分析タスクを用いて複数のMLLMを評価し、それらの性能と人間のベースラインを比較した。
地図設計の変更の影響を調べる実験は、MLLMの堅牢性と感度に関する洞察を与える。
- 参考スコア(独自算出の注目度): 12.730686631411055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in multimodal large language models (MLLMs) have driven researchers to explore how well these models read data visualizations, e.g., bar charts, scatter plots. More recently, attention has shifted to visual question answering with maps (Map-VQA). However, Map-VQA research has primarily focused on choropleth maps, which cover only a limited range of thematic categories and visual analytical tasks. To address these gaps, we introduce MapIQ, a benchmark dataset comprising 14,706 question-answer pairs across three map types: choropleth maps, cartograms, and proportional symbol maps spanning topics from six distinct themes (e.g., housing, crime). We evaluate multiple MLLMs using six visual analytical tasks, comparing their performance against one another and a human baseline. An additional experiment examining the impact of map design changes (e.g., altered color schemes, modified legend designs, and removal of map elements) provides insights into the robustness and sensitivity of MLLMs, their reliance on internal geographic knowledge, and potential avenues for improving Map-VQA performance.
- Abstract(参考訳): MLLM(Multimodal large language model)の最近の進歩は、これらのモデルがどのようにデータ視覚化、例えばバーチャート、散布プロットを読み取るか、研究者に調査を促している。
近年,地図による視覚的質問応答 (Map-VQA) に注目が移っている。
しかし、Map-VQAの研究は主に、限られた範囲のテーマカテゴリーと視覚的分析タスクのみをカバーするコロスマップに焦点を当てている。
これらのギャップに対処するため,我々は,6つの異なるテーマ(例えば,住宅,犯罪)からトピックにまたがる3種類の地図型からなる14,706組の質問応答ペアからなるベンチマークデータセットであるMapIQを紹介した。
本研究では、6つの視覚的分析タスクを用いて複数のMLLMを評価し、それらの性能と人間のベースラインを比較した。
マップデザイン変更の影響(例えば、変更されたカラースキーム、修正された伝説デザイン、地図要素の削除)を調べた別の実験では、MLLMの堅牢性と感度、内部の地理的知識への依存、マップ-VQAの性能向上のための潜在的な道のりについて洞察が得られる。
関連論文リスト
- Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps [56.76175383189738]
MLLMの詳細な視覚的理解と空間的推論能力を評価するためのベンチマークであるReasonMapを紹介する。
ReasonMapには、13か国30都市からの高解像度のトランジットマップが含まれており、2つの質問タイプと3つのテンプレートにまたがる1008の質問応答ペアが含まれている。
基本および推論変種を含む15種類のMLLMの包括的評価は、直感的パターンを示す。
論文 参考訳(メタデータ) (2025-05-24T12:33:52Z) - Chart-HQA: A Benchmark for Hypothetical Question Answering in Charts [62.45232157149698]
本稿では,同じ質問に対して仮定を課し,グラフの内容に基づいた反実的推論を行うようモデルに強制する,新しいChart hypothetical Question Answering (HQA)タスクを提案する。
さらに,MLLMの効率的なテキスト編集機能と人間の知識を併用して,多種多様な高品質HQAデータを低コストで生成する,人間とAIの対話型データ合成手法であるHAIを導入する。
論文 参考訳(メタデータ) (2025-03-06T05:08:40Z) - MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models [7.422346909538787]
MapEvalは、3つの異なるタスクにわたる基礎モデルを評価するために設計されたベンチマークである。
空間的関係、ナビゲーション、旅行計画、現実世界の地図の相互作用をカバーしている。
ロングコンテキスト推論、APIインタラクション、ビジュアルマップ分析を扱うモデルが必要です。
論文 参考訳(メタデータ) (2024-12-31T07:20:32Z) - MapExplorer: New Content Generation from Low-Dimensional Visualizations [60.02149343347818]
低次元の可視化や「投影マップ」は大規模で複雑なデータセットの解釈に広く用いられている。
これらの視覚化は、既存の知識空間を理解するのに役立つだけでなく、未知の領域への探索を暗黙的にガイドする。
プロジェクションマップ内の座標をコヒーレントでコンテキストに整合したテキストコンテンツに変換する新しい知識発見タスクであるMapExplorerを紹介する。
論文 参考訳(メタデータ) (2024-12-24T20:16:13Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - MAPWise: Evaluating Vision-Language Models for Advanced Map Queries [47.15503716894445]
本研究では,視覚言語モデル(VLM)の有効性について検討した。
我々は3つの地理的地域(アメリカ合衆国、インド、中国)の地図からなる新しい地図に基づく質問回答ベンチマークを導入する。
このベンチマークには43種類の質問テンプレートが組み込まれており、相対空間関係の微妙な理解、複雑な地図の特徴、複雑な推論が必要である。
論文 参考訳(メタデータ) (2024-08-30T20:57:34Z) - On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - Detecting Omissions in Geographic Maps through Computer Vision [18.36056648425432]
特定地域や特徴ランドマークを指定した地図を自動的に識別する手法を開発し,評価する。
地図を非マップと区別し、表示された領域の精度を確認し、特定のランドマーク名の有無を確認する。
このデータセットの実験では、特定領域のランドマークを除く地図を識別するために、この手法が85.51%のF1スコアを達成することを示した。
論文 参考訳(メタデータ) (2024-07-15T13:26:58Z) - BEVBert: Multimodal Map Pre-training for Language-guided Navigation [75.23388288113817]
視覚・言語ナビゲーション(VLN)における空間認識型マップベース事前学習パラダイムを提案する。
我々は,グローバルなトポロジカルマップにおけるナビゲーション依存性をモデル化しながら,不完全な観測を明示的に集約し,重複を取り除くための局所距離マップを構築した。
ハイブリッドマップをベースとして,マルチモーダルマップ表現を学習するための事前学習フレームワークを考案し,空間認識型クロスモーダル推論を強化し,言語誘導ナビゲーションの目標を導出する。
論文 参考訳(メタデータ) (2022-12-08T16:27:54Z) - MapQA: A Dataset for Question Answering on Choropleth Maps [12.877773112674506]
提案するMapQAは,60K以上の800K問合せ対の大規模データセットである。
私たちのタスクは、マップスタイルに関する表面的な質問から、基礎となるデータに基づく推論を必要とする複雑な質問まで、さまざまなレベルのマップ理解をテストします。
また、MapQAのための新しいアルゴリズム、Visual Multi-Output Data extract based QA (V-MODEQA)を提案する。
論文 参考訳(メタデータ) (2022-11-15T22:31:38Z) - Rethinking gradient weights' influence over saliency map estimation [0.0]
クラスアクティベーションマップ(CAM)は、ディープニューラルネットワークの予測を解釈するのに役立つサリエンシマップの定式化を支援する。
本稿では,サリエンシ推定時の重み付けアグリゲーション操作を補正するためのグローバルガイダンスマップを提案する。
提案手法は,ImageNet, MS-COCO 14, PASCAL VOC 2012データセットから得られたテスト画像よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-07-12T08:14:57Z) - CAMERAS: Enhanced Resolution And Sanity preserving Class Activation
Mapping for image saliency [61.40511574314069]
バックプロパゲーション画像のサリエンシは、入力中の個々のピクセルのモデル中心の重要性を推定することにより、モデル予測を説明することを目的としている。
CAMERASは、外部の事前処理を必要とせずに、高忠実度バックプロパゲーション・サリエンシ・マップを計算できる手法である。
論文 参考訳(メタデータ) (2021-06-20T08:20:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。