論文の概要: Enhancing Question Answering on Charts Through Effective Pre-training Tasks
- arxiv url: http://arxiv.org/abs/2406.10085v1
- Date: Fri, 14 Jun 2024 14:40:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 13:16:10.373242
- Title: Enhancing Question Answering on Charts Through Effective Pre-training Tasks
- Title(参考訳): 効果的な事前学習課題によるチャートに対する質問応答の促進
- Authors: Ashim Gupta, Vivek Gupta, Shuo Zhang, Yujie He, Ning Zhang, Shalin Shah,
- Abstract要約: グラフやプロットに適用した場合の現在のVisualQAモデルの制限に対処する。
以上の結果から,既存のモデルでは,図の構造的・視覚的文脈に関する疑問に答える上で,特に性能が低いことが示唆された。
本稿では,構造的・視覚的知識と数値的疑問の理解の両面から,既存のモデルを強制する3つの簡単な事前学習タスクを提案する。
- 参考スコア(独自算出の注目度): 26.571522748519584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To completely understand a document, the use of textual information is not enough. Understanding visual cues, such as layouts and charts, is also required. While the current state-of-the-art approaches for document understanding (both OCR-based and OCR-free) work well, a thorough analysis of their capabilities and limitations has not yet been performed. Therefore, in this work, we addresses the limitation of current VisualQA models when applied to charts and plots. To investigate shortcomings of the state-of-the-art models, we conduct a comprehensive behavioral analysis, using ChartQA as a case study. Our findings indicate that existing models particularly underperform in answering questions related to the chart's structural and visual context, as well as numerical information. To address these issues, we propose three simple pre-training tasks that enforce the existing model in terms of both structural-visual knowledge, as well as its understanding of numerical questions. We evaluate our pre-trained model (called MatCha-v2) on three chart datasets - both extractive and abstractive question datasets - and observe that it achieves an average improvement of 1.7% over the baseline model.
- Abstract(参考訳): 文書を完全に理解するには、テキスト情報の使用だけでは不十分である。
レイアウトやチャートなどの視覚的手がかりも必要だ。
現在の文書理解のための最先端のアプローチ(OCRベースとOCRフリーの両方)はうまく機能するが、その機能と制限の徹底的な分析はまだ行われていない。
そこで本研究では、チャートやプロットに適用した場合の現在のVisualQAモデルの制限について述べる。
最先端モデルの欠点を明らかにするため,ChartQAをケーススタディとして包括的行動分析を行った。
以上の結果から,既存のモデルでは,図の構造的・視覚的文脈や数値的情報に関する疑問に答える上で,特に性能が低いことが示唆された。
これらの課題に対処するために,構造的・視覚的知識と数値的疑問の理解の両面から,既存のモデルを強制する3つの簡単な事前学習タスクを提案する。
抽出された質問データセットと抽象的な質問データセットの2つのグラフデータセット上で,事前学習したモデル(MatchCha-v2)を評価し,ベースラインモデルよりも平均1.7%向上したことを確認した。
関連論文リスト
- On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - Unraveling the Truth: Do LLMs really Understand Charts? A Deep Dive into Consistency and Robustness [47.68358935792437]
チャート質問応答(CQA)は、ビジュアル言語理解の重要な領域である。
この分野の現在のビジュアル言語モデル(VLM)は、まだ未調査のままである。
本稿では,包括的データセット上での最先端VLMの評価を行う。
論文 参考訳(メタデータ) (2024-07-15T20:29:24Z) - From Pixels to Insights: A Survey on Automatic Chart Understanding in the Era of Large Foundation Models [98.41645229835493]
グラフ形式のデータの可視化は、データ分析において重要な役割を担い、重要な洞察を提供し、情報的な意思決定を支援する。
大規模言語モデルのような大規模な基盤モデルは、様々な自然言語処理タスクに革命をもたらした。
本研究は,自然言語処理,コンピュータビジョン,データ解析の分野における研究者や実践者の包括的資源として機能する。
論文 参考訳(メタデータ) (2024-03-18T17:57:09Z) - ChartInstruct: Instruction Tuning for Chart Comprehension and Reasoning [28.204261069650897]
71Kチャートで生成した191K命令からなる新しいチャート固有視覚言語インストラクションフォローデータセットであるChartInstructを紹介した。
4つの下流タスクの実験において、まずモデルの有効性を示す。
論文 参考訳(メタデータ) (2024-03-14T01:40:23Z) - StructChart: Perception, Structuring, Reasoning for Visual Chart
Understanding [58.38480335579541]
現在のチャート関連タスクは、視覚チャートから情報を抽出することを参照するチャート認識か、抽出されたデータから推論を行うかに焦点を当てている。
本稿では,共同認識と推論タスクのための統一的でラベル効率のよい学習パラダイムを確立することを目的とする。
各種のチャート関連タスクで実験を行い、統合されたチャート認識推論パラダイムの有効性と有望な可能性を実証した。
論文 参考訳(メタデータ) (2023-09-20T12:51:13Z) - RealCQA: Scientific Chart Question Answering as a Test-bed for
First-Order Logic [8.155575318208628]
実世界のグラフ上での視覚的QAのグラフ化のためのベンチマークとデータセットを提案する。
私たちのコントリビューションには、ランク付けと非ランク付けの両方のバリエーションを備えた、新しい回答タイプである'list'の導入が含まれています。
実世界のアウト・オブ・ディストリビューション・データセットを用いて行った実験の結果,大規模事前学習モデルのロバストな評価が得られた。
論文 参考訳(メタデータ) (2023-08-03T18:21:38Z) - OpenCQA: Open-ended Question Answering with Charts [6.7038829115674945]
我々はOpenCQAと呼ばれる新しいタスクを導入し、そこではグラフに関するオープンな質問にテキストで答えることが目的である。
3つの実践的な設定の下で,一連のベースラインを実装し,評価する。
結果から,トップパフォーマンスモデルは通常,流動的かつコヒーレントなテキストを生成することが示された。
論文 参考訳(メタデータ) (2022-10-12T23:37:30Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - Question-Answer Sentence Graph for Joint Modeling Answer Selection [122.29142965960138]
我々は,質問文,質問文,回答文のペア間のスコアを計算するための最先端(SOTA)モデルを訓練し,統合する。
オンライン推論は、目に見えないクエリのAS2タスクを解決するために実行される。
論文 参考訳(メタデータ) (2022-02-16T05:59:53Z) - Classification-Regression for Chart Comprehension [16.311371103939205]
チャート質問応答(CQA)は、チャート理解を評価するために用いられるタスクである。
分類と回帰を共同で学習する新しいモデルを提案する。
私たちのモデルのエッジは、特に語彙外回答の質問に重点を置いています。
論文 参考訳(メタデータ) (2021-11-29T18:46:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。