論文の概要: Classification-Regression for Chart Comprehension
- arxiv url: http://arxiv.org/abs/2111.14792v1
- Date: Mon, 29 Nov 2021 18:46:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 17:33:29.127414
- Title: Classification-Regression for Chart Comprehension
- Title(参考訳): チャート理解のための分類回帰
- Authors: Matan Levy, Rami Ben-Ari, Dani Lischinski
- Abstract要約: チャート質問応答(CQA)は、チャート理解を評価するために用いられるタスクである。
分類と回帰を共同で学習する新しいモデルを提案する。
私たちのモデルのエッジは、特に語彙外回答の質問に重点を置いています。
- 参考スコア(独自算出の注目度): 16.311371103939205
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Charts are a popular and effective form of data visualization. Chart question
answering (CQA) is a task used for assessing chart comprehension, which is
fundamentally different from understanding natural images. CQA requires
analyzing the relationships between the textual and the visual components of a
chart, in order to answer general questions or infer numerical values. Most
existing CQA datasets and it models are based on simplifying assumptions that
often enable surpassing human performance. In this work, we further explore the
reasons behind this outcome and propose a new model that jointly learns
classification and regression. Our language-vision set up with co-attention
transformers captures the complex interactions between the question and the
textual elements, which commonly exist in real-world charts. We validate these
conclusions with extensive experiments and breakdowns on the realistic PlotQA
dataset, outperforming previous approaches by a large margin, while showing
competitive performance on FigureQA. Our model's edge is particularly
emphasized on questions with out-of-vocabulary answers, many of which require
regression. We hope that this work will stimulate further research towards
solving the challenging and highly practical task of chart comprehension.
- Abstract(参考訳): チャートは、データビジュアライゼーションのポピュラーで効果的な形式です。
CQA(Chart Question answering)は、自然画像の理解と根本的に異なる、チャート理解を評価するためのタスクである。
CQAは、一般的な質問に答えたり、数値を推測するために、チャートのテキストとビジュアルコンポーネントの関係を分析する必要がある。
既存のCQAデータセットとモデルのほとんどは、人間のパフォーマンスを越えられるような仮定の単純化に基づいている。
本研究では,この結果の背景にある理由をさらに探究し,分類と回帰を共同で学習する新しいモデルを提案する。
我々の言語ビジョンとコアテンション変換器は、現実世界のチャートによく見られる質問とテキスト要素の間の複雑な相互作用を捉えます。
我々はこれらの結論を、現実的なPlotQAデータセットに関する広範な実験とブレークダウンで検証し、従来のアプローチを大きなマージンで上回り、図QA上での競合性能を示した。
我々のモデルのエッジは特に、語彙外回答の質問に重点を置いており、その多くが回帰を必要とする。
この研究がさらなる研究を刺激し、チャート理解の挑戦的で実践的な課題を解決することを期待している。
関連論文リスト
- RealCQA-V2 : Visual Premise Proving A Manual COT Dataset for Charts [2.9201864249313383]
グラフ質問応答のプロセスを洗練するための新しいタスクであるVisual Premise Provingを紹介する。
この手法は従来の精度に基づく評価手法から逸脱したものである。
データ検索とグラフの構造的理解の両方に習熟性を示すモデルが提案される。
論文 参考訳(メタデータ) (2024-10-29T19:32:53Z) - GoT-CQA: Graph-of-Thought Guided Compositional Reasoning for Chart Question Answering [12.485921065840294]
CQA(Chart Question Answering)は、ビジュアルチャートの内容に基づいて質問に答えることを目的としている。
本稿では,GoT-CQAと呼ばれる新しいグラフ・オブ・ソート(GoT)による合成推論モデルを提案する。
GoT-CQAは、特に複雑な人間記述や推論の質問において、優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-04T10:56:05Z) - On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - Enhancing Question Answering on Charts Through Effective Pre-training Tasks [26.571522748519584]
グラフやプロットに適用した場合の現在のVisualQAモデルの制限に対処する。
以上の結果から,既存のモデルでは,図の構造的・視覚的文脈に関する疑問に答える上で,特に性能が低いことが示唆された。
本稿では,構造的・視覚的知識と数値的疑問の理解の両面から,既存のモデルを強制する3つの簡単な事前学習タスクを提案する。
論文 参考訳(メタデータ) (2024-06-14T14:40:10Z) - QAGCF: Graph Collaborative Filtering for Q&A Recommendation [58.21387109664593]
質問と回答(Q&A)プラットフォームは通常、ユーザの知識獲得のニーズを満たすために質問と回答のペアを推奨する。
これにより、ユーザの振る舞いがより複雑になり、Q&Aレコメンデーションの2つの課題が提示される。
グラフニューラルネットワークモデルであるQ&Answer Graph Collaborative Filtering (QAGCF)を導入する。
論文 参考訳(メタデータ) (2024-06-07T10:52:37Z) - RealCQA: Scientific Chart Question Answering as a Test-bed for
First-Order Logic [8.155575318208628]
実世界のグラフ上での視覚的QAのグラフ化のためのベンチマークとデータセットを提案する。
私たちのコントリビューションには、ランク付けと非ランク付けの両方のバリエーションを備えた、新しい回答タイプである'list'の導入が含まれています。
実世界のアウト・オブ・ディストリビューション・データセットを用いて行った実験の結果,大規模事前学習モデルのロバストな評価が得られた。
論文 参考訳(メタデータ) (2023-08-03T18:21:38Z) - Learning Situation Hyper-Graphs for Video Question Answering [95.18071873415556]
本稿では,映像コンテンツに関する質問に対して,状況のハイパーグラフを予測して回答できるVQAアーキテクチャを提案する。
我々は、暗黙的にグラフ表現を識別する状況ハイパーグラフデコーダを訓練し、入力されたビデオクリップからオブジェクトとオブジェクトの関係を判断する。
以上の結果から,ビデオ質問応答タスクにおける課題に対して,ハイパーグラフの学習がシステムの性能向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-04-18T01:23:11Z) - OpenCQA: Open-ended Question Answering with Charts [6.7038829115674945]
我々はOpenCQAと呼ばれる新しいタスクを導入し、そこではグラフに関するオープンな質問にテキストで答えることが目的である。
3つの実践的な設定の下で,一連のベースラインを実装し,評価する。
結果から,トップパフォーマンスモデルは通常,流動的かつコヒーレントなテキストを生成することが示された。
論文 参考訳(メタデータ) (2022-10-12T23:37:30Z) - Question-Answer Sentence Graph for Joint Modeling Answer Selection [122.29142965960138]
我々は,質問文,質問文,回答文のペア間のスコアを計算するための最先端(SOTA)モデルを訓練し,統合する。
オンライン推論は、目に見えないクエリのAS2タスクを解決するために実行される。
論文 参考訳(メタデータ) (2022-02-16T05:59:53Z) - Bilateral Cross-Modality Graph Matching Attention for Feature Fusion in
Visual Question Answering [71.6781118080461]
本稿では,視覚質問応答(VQA)タスクのためのグラフマッチング注意(GMA)ネットワークを提案する。
まず、画像用のグラフを構築するが、構文情報と埋め込み情報の両方の観点から質問用のグラフを構築する。
次に, 2段グラフエンコーダを用いてモダリティ内関係を探索し, 画像と質問の関係を推定するために, 注目に合う双方向のモダリティグラフを提示する。
実験により、我々のネットワークはGQAデータセットとVQA 2.0データセット上で最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2021-12-14T10:01:26Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。