論文の概要: MAPWise: Evaluating Vision-Language Models for Advanced Map Queries
- arxiv url: http://arxiv.org/abs/2409.00255v1
- Date: Fri, 30 Aug 2024 20:57:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 16:02:27.231174
- Title: MAPWise: Evaluating Vision-Language Models for Advanced Map Queries
- Title(参考訳): MAPWise: 高度なマップクエリのためのビジョンランゲージモデルの評価
- Authors: Srija Mukhopadhyay, Abhishek Rajgaria, Prerana Khatiwada, Vivek Gupta, Dan Roth,
- Abstract要約: 本研究では,視覚言語モデル(VLM)の有効性について検討した。
我々は3つの地理的地域(アメリカ合衆国、インド、中国)の地図からなる新しい地図に基づく質問回答ベンチマークを導入する。
このベンチマークには43種類の質問テンプレートが組み込まれており、相対空間関係の微妙な理解、複雑な地図の特徴、複雑な推論が必要である。
- 参考スコア(独自算出の注目度): 47.15503716894445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) excel at tasks requiring joint understanding of visual and linguistic information. A particularly promising yet under-explored application for these models lies in answering questions based on various kinds of maps. This study investigates the efficacy of VLMs in answering questions based on choropleth maps, which are widely used for data analysis and representation. To facilitate and encourage research in this area, we introduce a novel map-based question-answering benchmark, consisting of maps from three geographical regions (United States, India, China), each containing 1000 questions. Our benchmark incorporates 43 diverse question templates, requiring nuanced understanding of relative spatial relationships, intricate map features, and complex reasoning. It also includes maps with discrete and continuous values, encompassing variations in color-mapping, category ordering, and stylistic patterns, enabling comprehensive analysis. We evaluate the performance of multiple VLMs on this benchmark, highlighting gaps in their abilities and providing insights for improving such models.
- Abstract(参考訳): 視覚言語モデル(VLM)は、視覚情報と言語情報の合同理解を必要とするタスクに優れる。
これらのモデルに対する特に有望だが未発見の応用は、様々な種類の地図に基づいて質問に答えることにある。
本研究では,データ解析や表現に広く用いられているコロプレスマップに基づく質問応答におけるVLMの有効性について検討した。
そこで本研究では,3つの地域(米国,インド,中国)の地図からなる地図ベースの質問回答ベンチマークについて紹介する。
このベンチマークには43種類の質問テンプレートが組み込まれており、相対空間関係の微妙な理解、複雑な地図の特徴、複雑な推論が必要である。
また、離散的かつ連続的な値を持つマップが含まれており、カラーマッピング、カテゴリー順序付け、スタイルパターンのバリエーションを含み、包括的な分析を可能にしている。
本ベンチマークでは、複数のVLMの性能評価を行い、その能力のギャップを強調し、そのようなモデルを改善するための洞察を提供する。
関連論文リスト
- Targeted Visual Prompting for Medical Visual Question Answering [3.600327818936722]
マルチモーダル・大規模言語モデル(MLLM)は、古典的なモデルアーキテクチャの代替として登場した。
単純な視覚的誤りは、これらのモデルの実際の視覚的理解能力に疑問を投げかけた。
本稿では,MLLMに領域ベースの質問機能を持たせるための視覚的プロンプトを提案する。
論文 参考訳(メタデータ) (2024-08-06T08:58:20Z) - Unraveling the Truth: Do VLMs really Understand Charts? A Deep Dive into Consistency and Robustness [47.68358935792437]
チャート質問応答(CQA)は、ビジュアル言語理解の重要な領域である。
この分野の現在のビジュアル言語モデル(VLM)は、まだ未調査のままである。
本稿では,包括的データセット上での最先端VLMの評価を行う。
論文 参考訳(メタデータ) (2024-07-15T20:29:24Z) - CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs [62.84082370758761]
CharXivは、arXiv論文の2,323のチャートを含む総合的な評価スイートである。
品質を確保するために、すべてのチャートと質問は、人間の専門家によって手書きされ、キュレーションされ、検証されます。
その結果、最強のプロプライエタリモデルの推論スキルの間に、かなり過小評価されていたギャップが明らかとなった。
論文 参考訳(メタデータ) (2024-06-26T17:50:11Z) - Towards Vision-Language Geo-Foundation Model: A Survey [65.70547895998541]
Vision-Language Foundation Models (VLFMs) は、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。
本稿では, VLGFMを網羅的にレビューし, この分野の最近の展開を要約し, 分析する。
論文 参考訳(メタデータ) (2024-06-13T17:57:30Z) - Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning [40.972648044298374]
MLLM(Multi-Modal Large Language Models)は様々なVQAタスクにおいて顕著な性能を示す。
解釈可能性に欠け、複雑な視覚的な入力に苦しむことが多い。
438k問合せ対からなる大規模Visual CoTデータセットを提案する。
視覚的な入力を動的に重視し,解釈可能な思考を提供するマルチターン処理パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-25T17:59:23Z) - Text2Analysis: A Benchmark of Table Question Answering with Advanced
Data Analysis and Unclear Queries [67.0083902913112]
高度な解析タスクを取り入れたText2Analysisベンチマークを開発した。
また,5つのイノベーティブかつ効果的なアノテーション手法を開発した。
3つの異なる指標を用いて5つの最先端モデルを評価する。
論文 参考訳(メタデータ) (2023-12-21T08:50:41Z) - ViCLEVR: A Visual Reasoning Dataset and Hybrid Multimodal Fusion Model
for Visual Question Answering in Vietnamese [1.6340299456362617]
ベトナムにおける様々な視覚的推論能力を評価するための先駆的な収集であるViCLEVRデータセットを紹介した。
我々は、現代の視覚的推論システムの包括的な分析を行い、その強みと限界についての貴重な洞察を提供する。
PhoVITは、質問に基づいて画像中のオブジェクトを識別する総合的なマルチモーダル融合である。
論文 参考訳(メタデータ) (2023-10-27T10:44:50Z) - MapQA: A Dataset for Question Answering on Choropleth Maps [12.877773112674506]
提案するMapQAは,60K以上の800K問合せ対の大規模データセットである。
私たちのタスクは、マップスタイルに関する表面的な質問から、基礎となるデータに基づく推論を必要とする複雑な質問まで、さまざまなレベルのマップ理解をテストします。
また、MapQAのための新しいアルゴリズム、Visual Multi-Output Data extract based QA (V-MODEQA)を提案する。
論文 参考訳(メタデータ) (2022-11-15T22:31:38Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。