論文の概要: Classification-Regression for Chart Comprehension
- arxiv url: http://arxiv.org/abs/2111.14792v1
- Date: Mon, 29 Nov 2021 18:46:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 17:33:29.127414
- Title: Classification-Regression for Chart Comprehension
- Title(参考訳): チャート理解のための分類回帰
- Authors: Matan Levy, Rami Ben-Ari, Dani Lischinski
- Abstract要約: チャート質問応答(CQA)は、チャート理解を評価するために用いられるタスクである。
分類と回帰を共同で学習する新しいモデルを提案する。
私たちのモデルのエッジは、特に語彙外回答の質問に重点を置いています。
- 参考スコア(独自算出の注目度): 16.311371103939205
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Charts are a popular and effective form of data visualization. Chart question
answering (CQA) is a task used for assessing chart comprehension, which is
fundamentally different from understanding natural images. CQA requires
analyzing the relationships between the textual and the visual components of a
chart, in order to answer general questions or infer numerical values. Most
existing CQA datasets and it models are based on simplifying assumptions that
often enable surpassing human performance. In this work, we further explore the
reasons behind this outcome and propose a new model that jointly learns
classification and regression. Our language-vision set up with co-attention
transformers captures the complex interactions between the question and the
textual elements, which commonly exist in real-world charts. We validate these
conclusions with extensive experiments and breakdowns on the realistic PlotQA
dataset, outperforming previous approaches by a large margin, while showing
competitive performance on FigureQA. Our model's edge is particularly
emphasized on questions with out-of-vocabulary answers, many of which require
regression. We hope that this work will stimulate further research towards
solving the challenging and highly practical task of chart comprehension.
- Abstract(参考訳): チャートは、データビジュアライゼーションのポピュラーで効果的な形式です。
CQA(Chart Question answering)は、自然画像の理解と根本的に異なる、チャート理解を評価するためのタスクである。
CQAは、一般的な質問に答えたり、数値を推測するために、チャートのテキストとビジュアルコンポーネントの関係を分析する必要がある。
既存のCQAデータセットとモデルのほとんどは、人間のパフォーマンスを越えられるような仮定の単純化に基づいている。
本研究では,この結果の背景にある理由をさらに探究し,分類と回帰を共同で学習する新しいモデルを提案する。
我々の言語ビジョンとコアテンション変換器は、現実世界のチャートによく見られる質問とテキスト要素の間の複雑な相互作用を捉えます。
我々はこれらの結論を、現実的なPlotQAデータセットに関する広範な実験とブレークダウンで検証し、従来のアプローチを大きなマージンで上回り、図QA上での競合性能を示した。
我々のモデルのエッジは特に、語彙外回答の質問に重点を置いており、その多くが回帰を必要とする。
この研究がさらなる研究を刺激し、チャート理解の挑戦的で実践的な課題を解決することを期待している。
関連論文リスト
- UNK-VQA: A Dataset and A Probe into Multi-modal Large Models' Abstention
Ability [51.812099161015745]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - RealCQA: Scientific Chart Question Answering as a Test-bed for
First-Order Logic [8.155575318208628]
実世界のグラフ上での視覚的QAのグラフ化のためのベンチマークとデータセットを提案する。
私たちのコントリビューションには、ランク付けと非ランク付けの両方のバリエーションを備えた、新しい回答タイプである'list'の導入が含まれています。
実世界のアウト・オブ・ディストリビューション・データセットを用いて行った実験の結果,大規模事前学習モデルのロバストな評価が得られた。
論文 参考訳(メタデータ) (2023-08-03T18:21:38Z) - Learning Situation Hyper-Graphs for Video Question Answering [95.18071873415556]
本稿では,映像コンテンツに関する質問に対して,状況のハイパーグラフを予測して回答できるVQAアーキテクチャを提案する。
我々は、暗黙的にグラフ表現を識別する状況ハイパーグラフデコーダを訓練し、入力されたビデオクリップからオブジェクトとオブジェクトの関係を判断する。
以上の結果から,ビデオ質問応答タスクにおける課題に対して,ハイパーグラフの学習がシステムの性能向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-04-18T01:23:11Z) - OpenCQA: Open-ended Question Answering with Charts [6.7038829115674945]
我々はOpenCQAと呼ばれる新しいタスクを導入し、そこではグラフに関するオープンな質問にテキストで答えることが目的である。
3つの実践的な設定の下で,一連のベースラインを実装し,評価する。
結果から,トップパフォーマンスモデルは通常,流動的かつコヒーレントなテキストを生成することが示された。
論文 参考訳(メタデータ) (2022-10-12T23:37:30Z) - ChartQA: A Benchmark for Question Answering about Charts with Visual and
Logical Reasoning [7.192233658525916]
9.6Kの人書き質問と23.1Kの人書きチャートの要約から生成される質問に関するベンチマークを示す。
本稿では,視覚的特徴とグラフのデータテーブルを組み合わせた2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-03-19T05:00:30Z) - Question-Answer Sentence Graph for Joint Modeling Answer Selection [122.29142965960138]
我々は,質問文,質問文,回答文のペア間のスコアを計算するための最先端(SOTA)モデルを訓練し,統合する。
オンライン推論は、目に見えないクエリのAS2タスクを解決するために実行される。
論文 参考訳(メタデータ) (2022-02-16T05:59:53Z) - Bilateral Cross-Modality Graph Matching Attention for Feature Fusion in
Visual Question Answering [71.6781118080461]
本稿では,視覚質問応答(VQA)タスクのためのグラフマッチング注意(GMA)ネットワークを提案する。
まず、画像用のグラフを構築するが、構文情報と埋め込み情報の両方の観点から質問用のグラフを構築する。
次に, 2段グラフエンコーダを用いてモダリティ内関係を探索し, 画像と質問の関係を推定するために, 注目に合う双方向のモダリティグラフを提示する。
実験により、我々のネットワークはGQAデータセットとVQA 2.0データセット上で最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2021-12-14T10:01:26Z) - A Hierarchical Reasoning Graph Neural Network for The Automatic Scoring
of Answer Transcriptions in Video Job Interviews [14.091472037847499]
質問応答対の自動評価のための階層型推論グラフニューラルネットワーク(HRGNN)を提案する。
我々は,現在QAセッションの相互作用状態をモデル化するために,意味レベル推論グラフアテンションネットワークを利用する。
最後に,最終予測のための時間的質問応答対を表すゲート再帰単位エンコーダを提案する。
論文 参考訳(メタデータ) (2020-12-22T12:27:45Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z) - SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。
この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。
我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文 参考訳(メタデータ) (2020-01-20T01:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。