論文の概要: MapQA: A Dataset for Question Answering on Choropleth Maps
- arxiv url: http://arxiv.org/abs/2211.08545v1
- Date: Tue, 15 Nov 2022 22:31:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 14:03:03.721899
- Title: MapQA: A Dataset for Question Answering on Choropleth Maps
- Title(参考訳): MapQA:Choropleth Mapsの質問回答データセット
- Authors: Shuaichen Chang, David Palzer, Jialin Li, Eric Fosler-Lussier,
Ningchuan Xiao
- Abstract要約: 提案するMapQAは,60K以上の800K問合せ対の大規模データセットである。
私たちのタスクは、マップスタイルに関する表面的な質問から、基礎となるデータに基づく推論を必要とする複雑な質問まで、さまざまなレベルのマップ理解をテストします。
また、MapQAのための新しいアルゴリズム、Visual Multi-Output Data extract based QA (V-MODEQA)を提案する。
- 参考スコア(独自算出の注目度): 12.877773112674506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Choropleth maps are a common visual representation for region-specific
tabular data and are used in a number of different venues (newspapers,
articles, etc). These maps are human-readable but are often challenging to deal
with when trying to extract data for screen readers, analyses, or other related
tasks. Recent research into Visual-Question Answering (VQA) has studied
question answering on human-generated charts (ChartQA), such as bar, line, and
pie charts. However, little work has paid attention to understanding maps;
general VQA models, and ChartQA models, suffer when asked to perform this task.
To facilitate and encourage research in this area, we present MapQA, a
large-scale dataset of ~800K question-answer pairs over ~60K map images. Our
task tests various levels of map understanding, from surface questions about
map styles to complex questions that require reasoning on the underlying data.
We present the unique challenges of MapQA that frustrate most strong baseline
algorithms designed for ChartQA and general VQA tasks. We also present a novel
algorithm, Visual Multi-Output Data Extraction based QA (V-MODEQA) for MapQA.
V-MODEQA extracts the underlying structured data from a map image with a
multi-output model and then performs reasoning on the extracted data. Our
experimental results show that V-MODEQA has better overall performance and
robustness on MapQA than the state-of-the-art ChartQA and VQA algorithms by
capturing the unique properties in map question answering.
- Abstract(参考訳): choroplethマップは、地域固有の表データのための共通の視覚的表現であり、様々な場所(新聞、記事など)で使われている。
これらの地図は可読性があるが、画面リーダー、分析、その他の関連タスクのデータ抽出を試みる場合、対処が難しい場合が多い。
VQA(Visual-Question Answering)に関する最近の研究は、バー、ライン、パイチャートなどの人為的生成チャート(ChartQA)の質問応答について研究している。
しかし、一般的なVQAモデルやChartQAモデルなど、地図の理解にはほとんど関心が払われていない。
この領域の研究を促進するために,約60Kの地図画像上に800Kの質問応答対の大規模データセットであるMapQAを提案する。
私たちのタスクは、マップスタイルに関する表面的な質問から、基礎となるデータに対する推論を必要とする複雑な質問まで、さまざまなレベルのマップ理解をテストします。
本稿では,ChartQAタスクや一般的なVQAタスクのために設計された,最も強力なベースラインアルゴリズムをフラストレーションするMapQAのユニークな課題について述べる。
また,MapQAのためのビジュアル多出力データ抽出に基づくQA(V-MODEQA)を提案する。
V-MODEQAは、マルチ出力モデルを用いて地図画像から基盤となる構造化データを抽出し、抽出したデータに基づいて推論を行う。
実験結果から,V-MODEQAは現状のChartQAアルゴリズムやVQAアルゴリズムよりも,MapQAの全体的な性能とロバスト性が高いことがわかった。
関連論文リスト
- MAPWise: Evaluating Vision-Language Models for Advanced Map Queries [47.15503716894445]
本研究では,視覚言語モデル(VLM)の有効性について検討した。
我々は3つの地理的地域(アメリカ合衆国、インド、中国)の地図からなる新しい地図に基づく質問回答ベンチマークを導入する。
このベンチマークには43種類の質問テンプレートが組み込まれており、相対空間関係の微妙な理解、複雑な地図の特徴、複雑な推論が必要である。
論文 参考訳(メタデータ) (2024-08-30T20:57:34Z) - Generalizing Visual Question Answering from Synthetic to Human-Written Questions via a Chain of QA with a Large Language Model [4.41132900194195]
人手による質問(CoQAH)に対するQAの連鎖という新しい手法を提案する。
CoQAHは、大言語モデルと合成データに基づいて訓練されたVQAモデルの間の一連のQA相互作用を利用して、人間による質問に対して論理的回答を導出する。
我々は,3Dレンダー画像と胸部X線画像の2種類のVQAデータセットに対するCoQAHの有効性を検証した。
論文 参考訳(メタデータ) (2024-01-12T06:49:49Z) - NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for
Autonomous Driving Scenario [77.14723238359318]
NuScenesQAは、自動運転シナリオにおけるVQAの最初のベンチマークであり、34Kの視覚シーンと460Kの質問応答ペアを含んでいる。
既存の3D検出アノテーションを利用してシーングラフと質問テンプレートを手動で作成する。
先進的な3D検出とVQA技術を用いた一連のベースラインを開発する。
論文 参考訳(メタデータ) (2023-05-24T07:40:50Z) - BinaryVQA: A Versatile Test Set to Evaluate the Out-of-Distribution
Generalization of VQA Models [47.64219291655723]
我々は,VQAモデルの限界を押し上げるために,BinaryVQA(BinaryVQA)と呼ばれる視覚的質問応答のための新しいテストセットを導入する。
私たちのデータセットには1,024のイメージに7,800の質問が含まれており、さまざまなオブジェクト、トピック、コンセプトをカバーしています。
質問の約63%は肯定的な回答を持っている。
論文 参考訳(メタデータ) (2023-01-28T00:03:44Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - From Pixels to Objects: Cubic Visual Attention for Visual Question
Answering [132.95819467484517]
近年,注目度に基づく視覚質問応答 (VQA) は,質問を利用して回答に関連する異なる視覚領域をターゲットにすることで大きな成功を収めている。
本稿では、VQAタスクを改善するために、新しいチャネルと空間的注意をオブジェクト領域に適用し、キュービック視覚注意(CVA)モデルを提案する。
実験の結果,提案手法は最先端技術よりも優れていた。
論文 参考訳(メタデータ) (2022-06-04T07:03:18Z) - ChartQA: A Benchmark for Question Answering about Charts with Visual and
Logical Reasoning [7.192233658525916]
9.6Kの人書き質問と23.1Kの人書きチャートの要約から生成される質問に関するベンチマークを示す。
本稿では,視覚的特徴とグラフのデータテーブルを組み合わせた2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-03-19T05:00:30Z) - Grounding Answers for Visual Questions Asked by Visually Impaired People [16.978747012406266]
VizWiz-VQA-Groundingは、視覚障害者が質問する視覚的質問に答えを視覚的に根拠付ける最初のデータセットである。
データセットを分析し、それを5つのVQA-Groundingデータセットと比較し、類似点と異なる点を実証します。
論文 参考訳(メタデータ) (2022-02-04T06:47:16Z) - Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。