論文の概要: ChartQA: A Benchmark for Question Answering about Charts with Visual and
Logical Reasoning
- arxiv url: http://arxiv.org/abs/2203.10244v1
- Date: Sat, 19 Mar 2022 05:00:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-26 23:28:32.503381
- Title: ChartQA: A Benchmark for Question Answering about Charts with Visual and
Logical Reasoning
- Title(参考訳): chartqa: 視覚的および論理的推論によるチャートに関する質問応答ベンチマーク
- Authors: Ahmed Masry, Do Xuan Long, Jia Qing Tan, Shafiq Joty, Enamul Hoque
- Abstract要約: 9.6Kの人書き質問と23.1Kの人書きチャートの要約から生成される質問に関するベンチマークを示す。
本稿では,視覚的特徴とグラフのデータテーブルを組み合わせた2つのトランスフォーマーモデルを提案する。
- 参考スコア(独自算出の注目度): 7.192233658525916
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Charts are very popular for analyzing data. When exploring charts, people
often ask a variety of complex reasoning questions that involve several logical
and arithmetic operations. They also commonly refer to visual features of a
chart in their questions. However, most existing datasets do not focus on such
complex reasoning questions as their questions are template-based and answers
come from a fixed-vocabulary. In this work, we present a large-scale benchmark
covering 9.6K human-written questions as well as 23.1K questions generated from
human-written chart summaries. To address the unique challenges in our
benchmark involving visual and logical reasoning over charts, we present two
transformer-based models that combine visual features and the data table of the
chart in a unified way to answer questions. While our models achieve the
state-of-the-art results on the previous datasets as well as on our benchmark,
the evaluation also reveals several challenges in answering complex reasoning
questions.
- Abstract(参考訳): グラフはデータ分析にとても人気があります。
チャートを調べるとき、人々はいくつかの論理演算や算術演算を含む様々な複雑な推論の質問をする。
質問では、チャートの視覚的な特徴についても言及することが多い。
しかし、既存のデータセットの多くは、テンプレートベースであり、回答は固定語彙から来るので、そのような複雑な推論の問題に焦点を合わせていない。
本稿では、9.6kの人文的質問と23.1kの人文的質問を網羅する大規模ベンチマークを提案する。
グラフ上の視覚的推論と論理的推論を含むベンチマークにおけるユニークな課題に対処するために,視覚的特徴とグラフのデータテーブルを組み合わせた2つのトランスフォーマーモデルを提案する。
我々のモデルは、以前のデータセットとベンチマークで最先端の結果を達成する一方で、複雑な推論問題に答える上でのいくつかの課題も明らかにしている。
関連論文リスト
- GoT-CQA: Graph-of-Thought Guided Compositional Reasoning for Chart Question Answering [12.485921065840294]
CQA(Chart Question Answering)は、ビジュアルチャートの内容に基づいて質問に答えることを目的としている。
本稿では,GoT-CQAと呼ばれる新しいグラフ・オブ・ソート(GoT)による合成推論モデルを提案する。
GoT-CQAは、特に複雑な人間記述や推論の質問において、優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-04T10:56:05Z) - VProChart: Answering Chart Question through Visual Perception Alignment Agent and Programmatic Solution Reasoning [13.011899331656018]
VProChartは、CQA(Chart Question Answering)の課題に対処するために設計された新しいフレームワークである。
軽量な視覚知覚アライメントエージェント(VPAgent)と,プログラム型ソリューション推論アプローチを統合している。
VProChartは既存のメソッドよりも優れており、チャートによる理解と推論の能力を強調している。
論文 参考訳(メタデータ) (2024-09-03T07:19:49Z) - Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - QAGCF: Graph Collaborative Filtering for Q&A Recommendation [58.21387109664593]
質問と回答(Q&A)プラットフォームは通常、ユーザの知識獲得のニーズを満たすために質問と回答のペアを推奨する。
これにより、ユーザの振る舞いがより複雑になり、Q&Aレコメンデーションの2つの課題が提示される。
グラフニューラルネットワークモデルであるQ&Answer Graph Collaborative Filtering (QAGCF)を導入する。
論文 参考訳(メタデータ) (2024-06-07T10:52:37Z) - ChartAssisstant: A Universal Chart Multimodal Language Model via
Chart-to-Table Pre-training and Multitask Instruction Tuning [54.89249749894061]
ChartAssistantは、ユニバーサルチャートの理解と推論のためのビジョン言語モデルである。
2段階のトレーニングプロセスを経て、チャートとテキストの調整のために、チャートからテーブルへのパースを事前トレーニングする。
実験により, 最先端UniChart法とChartllama法に比較して, 顕著な性能向上が得られた。
論文 参考訳(メタデータ) (2024-01-04T17:51:48Z) - OpenCQA: Open-ended Question Answering with Charts [6.7038829115674945]
我々はOpenCQAと呼ばれる新しいタスクを導入し、そこではグラフに関するオープンな質問にテキストで答えることが目的である。
3つの実践的な設定の下で,一連のベースラインを実装し,評価する。
結果から,トップパフォーマンスモデルは通常,流動的かつコヒーレントなテキストを生成することが示された。
論文 参考訳(メタデータ) (2022-10-12T23:37:30Z) - Chart Question Answering: State of the Art and Future Directions [0.0]
チャート質問回答 (Chart Question Answering, CQA) システムは、通常、チャートと自然言語の質問を入力として、回答を自動的に生成する。
本稿では,グラフ質問応答問題に着目した現状研究を体系的にレビューする。
論文 参考訳(メタデータ) (2022-05-08T22:54:28Z) - Question-Answer Sentence Graph for Joint Modeling Answer Selection [122.29142965960138]
我々は,質問文,質問文,回答文のペア間のスコアを計算するための最先端(SOTA)モデルを訓練し,統合する。
オンライン推論は、目に見えないクエリのAS2タスクを解決するために実行される。
論文 参考訳(メタデータ) (2022-02-16T05:59:53Z) - Bilateral Cross-Modality Graph Matching Attention for Feature Fusion in
Visual Question Answering [71.6781118080461]
本稿では,視覚質問応答(VQA)タスクのためのグラフマッチング注意(GMA)ネットワークを提案する。
まず、画像用のグラフを構築するが、構文情報と埋め込み情報の両方の観点から質問用のグラフを構築する。
次に, 2段グラフエンコーダを用いてモダリティ内関係を探索し, 画像と質問の関係を推定するために, 注目に合う双方向のモダリティグラフを提示する。
実験により、我々のネットワークはGQAデータセットとVQA 2.0データセット上で最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2021-12-14T10:01:26Z) - Classification-Regression for Chart Comprehension [16.311371103939205]
チャート質問応答(CQA)は、チャート理解を評価するために用いられるタスクである。
分類と回帰を共同で学習する新しいモデルを提案する。
私たちのモデルのエッジは、特に語彙外回答の質問に重点を置いています。
論文 参考訳(メタデータ) (2021-11-29T18:46:06Z) - SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。
この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。
我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文 参考訳(メタデータ) (2020-01-20T01:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。