論文の概要: CartoMapQA: A Fundamental Benchmark Dataset Evaluating Vision-Language Models on Cartographic Map Understanding
- arxiv url: http://arxiv.org/abs/2512.03558v1
- Date: Wed, 03 Dec 2025 08:25:22 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:14:53.441476
- Title: CartoMapQA: A Fundamental Benchmark Dataset Evaluating Vision-Language Models on Cartographic Map Understanding
- Title(参考訳): CartoMapQA: 画像地図理解に基づく視覚言語モデル評価のためのベンチマークデータセット
- Authors: Huy Quang Ung, Guillaume Habault, Yasutaka Nishimura, Hao Niu, Roberto Legaspi, Tomoki Oya, Ryoichi Kojima, Masato Taya, Chihiro Ono, Atsunori Minamikawa, Yan Liu,
- Abstract要約: カルトマップQA(CartoMapQA)は、視覚言語モデルによる地図の理解を評価するためのベンチマークである。
データセットには2000以上のサンプルが含まれており、それぞれが地図地図、質問(オープンエンドまたは複数選択の回答)、接地真実の回答で構成されている。
- 参考スコア(独自算出の注目度): 5.925837407110905
- License:
- Abstract: The rise of Visual-Language Models (LVLMs) has unlocked new possibilities for seamlessly integrating visual and textual information. However, their ability to interpret cartographic maps remains largely unexplored. In this paper, we introduce CartoMapQA, a benchmark specifically designed to evaluate LVLMs' understanding of cartographic maps through question-answering tasks. The dataset includes over 2000 samples, each composed of a cartographic map, a question (with open-ended or multiple-choice answers), and a ground-truth answer. These tasks span key low-, mid- and high-level map interpretation skills, including symbol recognition, embedded information extraction, scale interpretation, and route-based reasoning. Our evaluation of both open-source and proprietary LVLMs reveals persistent challenges: models frequently struggle with map-specific semantics, exhibit limited geospatial reasoning, and are prone to Optical Character Recognition (OCR)-related errors. By isolating these weaknesses, CartoMapQA offers a valuable tool for guiding future improvements in LVLM architectures. Ultimately, it supports the development of models better equipped for real-world applications that depend on robust and reliable map understanding, such as navigation, geographic search, and urban planning. Our source code and data are openly available to the research community at: https://github.com/ungquanghuy-kddi/CartoMapQA.git
- Abstract(参考訳): Visual-Language Models (LVLM)の台頭により、視覚情報とテキスト情報をシームレスに統合する新たな可能性が開けた。
しかし、地図地図を解釈する能力はほとんど解明されていない。
本稿では,LVLMの地図理解を質問応答タスクで評価するためのベンチマークであるCartoMapQAを紹介する。
データセットには2000以上のサンプルが含まれており、それぞれが地図地図、質問(オープンエンドまたは複数選択の回答)、接地真実の回答で構成されている。
これらのタスクは、シンボル認識、埋め込み情報抽出、スケール解釈、ルートベースの推論を含む、重要な低レベル、中レベル、高レベルのマップ解釈スキルにまたがる。
我々は,LVLMをオープンソースかつプロプライエタリに評価することで,しばしば地図固有の意味論に苦しむモデル,地理的推論に制限のあるモデル,光学文字認識(OCR)関連誤差など,永続的な課題を明らかにした。
これらの弱点を分離することにより、CartoMapQAはLVLMアーキテクチャの今後の改善を導く貴重なツールを提供する。
最終的に、ナビゲーション、地理検索、都市計画など、堅牢で信頼性の高い地図理解に依存する現実世界のアプリケーションにより良い装備のモデルの開発をサポートする。
私たちのソースコードとデータは、 https://github.com/ungquanghuy-kddi/CartoMapQA.gitで公開されています。
関連論文リスト
- MapIQ: Evaluating Multimodal Large Language Models for Map Question Answering [20.408123315555834]
本稿では,3種類のマップに対して14,706の質問応答ペアからなるベンチマークデータセットであるMapIQを紹介する。
本研究では、6つの視覚的分析タスクを用いて複数のMLLMを評価し、それらの性能と人間のベースラインを比較した。
地図設計の変更の影響を調べる実験は、MLLMの堅牢性と感度に関する洞察を与える。
論文 参考訳(メタデータ) (2025-07-15T18:02:57Z) - Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps [56.76175383189738]
MLLMの詳細な視覚的理解と空間的推論能力を評価するためのベンチマークであるReasonMapを紹介する。
ReasonMapには、13か国30都市からの高解像度のトランジットマップが含まれており、2つの質問タイプと3つのテンプレートにまたがる1008の質問応答ペアが含まれている。
基本および推論変種を含む15種類のMLLMの包括的評価は、直感的パターンを示す。
論文 参考訳(メタデータ) (2025-05-24T12:33:52Z) - MapQaTor: An Extensible Framework for Efficient Annotation of Map-Based QA Datasets [3.3856216159724983]
我々は、トレース可能なマップベースのQAデータセットの作成を合理化する、オープンソースのフレームワークであるMapQaTorを紹介した。
MapQaTorは任意のMap APIとのシームレスな統合を可能にし、ユーザはさまざまなソースからデータを収集して視覚化することができる。
論文 参考訳(メタデータ) (2024-12-30T15:33:19Z) - MapExplorer: New Content Generation from Low-Dimensional Visualizations [60.02149343347818]
低次元の可視化や「投影マップ」は大規模で複雑なデータセットの解釈に広く用いられている。
これらの視覚化は、既存の知識空間を理解するのに役立つだけでなく、未知の領域への探索を暗黙的にガイドする。
プロジェクションマップ内の座標をコヒーレントでコンテキストに整合したテキストコンテンツに変換する新しい知識発見タスクであるMapExplorerを紹介する。
論文 参考訳(メタデータ) (2024-12-24T20:16:13Z) - Distill Visual Chart Reasoning Ability from LLMs to MLLMs [64.32993770646165]
マルチモーダル大言語モデル(MLLM)における複雑なチャートQ&Aタスクの解決には高度な視覚的推論能力が必要である
我々は,LLMからMLLMへの視覚的推論能力を蒸留するための費用効率,効率,スケーラブルなデータ合成手法であるCode-as-Intermediary Translation (CIT)を提案する。
ReachQAは、MLLMの認識と推論能力を高めるために、3kの推論集約チャートと20kのQ&Aペアを含むデータセットである。
論文 参考訳(メタデータ) (2024-10-24T14:50:42Z) - MAPWise: Evaluating Vision-Language Models for Advanced Map Queries [47.15503716894445]
本研究では,視覚言語モデル(VLM)の有効性について検討した。
我々は3つの地理的地域(アメリカ合衆国、インド、中国)の地図からなる新しい地図に基づく質問回答ベンチマークを導入する。
このベンチマークには43種類の質問テンプレートが組み込まれており、相対空間関係の微妙な理解、複雑な地図の特徴、複雑な推論が必要である。
論文 参考訳(メタデータ) (2024-08-30T20:57:34Z) - CartoMark: a benchmark dataset for map pattern recognition and 1 map
content retrieval with machine intelligence [9.652629004863364]
我々は,地図テキストアノテーション認識,地図シーン分類,地図超解像再構成,地図スタイル転送のための大規模ベンチマークデータセットを開発した。
これらの良好なラベル付きデータセットは、マップ特徴の検出、マップパターン認識、マップコンテンツ検索を行う最先端のマシンインテリジェンス技術を促進する。
論文 参考訳(メタデータ) (2023-12-14T01:54:38Z) - Weakly-Supervised Multi-Granularity Map Learning for Vision-and-Language
Navigation [87.52136927091712]
我々は,ロボットエージェントが言語指導によって記述された経路をたどって,環境の中をナビゲートするよう訓練する,現実的かつ困難な問題に対処する。
高精度かつ効率的なナビゲーションを実現するためには,環境オブジェクトの空間的位置と意味情報の両方を正確に表現した地図を構築することが重要である。
より包括的にオブジェクトを表現するために,オブジェクトの細粒度(色,テクスチャなど)とセマンティッククラスの両方を含む多粒度マップを提案する。
論文 参考訳(メタデータ) (2022-10-14T04:23:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。