Fugu-MT 論文翻訳(概要): DCQA: Document-Level Chart Question Answering towards Complex Reasoning and Common-Sense Understanding

論文の概要: DCQA: Document-Level Chart Question Answering towards Complex Reasoning and Common-Sense Understanding

arxiv url: http://arxiv.org/abs/2310.18983v1
Date: Sun, 29 Oct 2023 11:38:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-31 15:01:06.272497
Title: DCQA: Document-Level Chart Question Answering towards Complex Reasoning and Common-Sense Understanding
Title（参考訳）: DCQA:複雑な推論と常識理解に向けた文書レベルチャート質問
Authors: Anran Wu, Luwei Xiao, Xingjiao Wu, Shuwen Yang, Junjie Xu, Zisong Zhuang, Nian Xie, Cheng Jin, Liang He
Abstract要約: 文書レベルの質問応答(DCQA)という新しいタスクを導入する。新たに開発されたベンチマークデータセットは、チャートを幅広いスタイルで統合した50,010の合成文書からなる。本稿では,テーブルデータ,リッチな色集合,および基本的な質問テンプレートを利用する強力な質問応答生成エンジンの開発について述べる。
参考スコア（独自算出の注目度）: 19.713647367008143
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visually-situated languages such as charts and plots are omnipresent in real-world documents. These graphical depictions are human-readable and are often analyzed in visually-rich documents to address a variety of questions that necessitate complex reasoning and common-sense responses. Despite the growing number of datasets that aim to answer questions over charts, most only address this task in isolation, without considering the broader context of document-level question answering. Moreover, such datasets lack adequate common-sense reasoning information in their questions. In this work, we introduce a novel task named document-level chart question answering (DCQA). The goal of this task is to conduct document-level question answering, extracting charts or plots in the document via document layout analysis (DLA) first and subsequently performing chart question answering (CQA). The newly developed benchmark dataset comprises 50,010 synthetic documents integrating charts in a wide range of styles (6 styles in contrast to 3 for PlotQA and ChartQA) and includes 699,051 questions that demand a high degree of reasoning ability and common-sense understanding. Besides, we present the development of a potent question-answer generation engine that employs table data, a rich color set, and basic question templates to produce a vast array of reasoning question-answer pairs automatically. Based on DCQA, we devise an OCR-free transformer for document-level chart-oriented understanding, capable of DLA and answering complex reasoning and common-sense questions over charts in an OCR-free manner. Our DCQA dataset is expected to foster research on understanding visualizations in documents, especially for scenarios that require complex reasoning for charts in the visually-rich document. We implement and evaluate a set of baselines, and our proposed method achieves comparable results.
Abstract（参考訳）: 図表やプロットのような視覚的に構成された言語は、現実世界の文書に全文的に存在する。これらのグラフィカルな描写は可読であり、複雑な推論や常識的な応答を必要とする様々な疑問に対処するために、視覚的に豊富な文書でしばしば分析される。グラフ上の質問に答えるためのデータセットが増えているにもかかわらず、ほとんどの場合、ドキュメントレベルの質問応答のより広範なコンテキストを考慮せずに、このタスクに分離して対処する。さらに、これらのデータセットは、質問に十分な常識的推論情報を欠いている。本研究では,文書レベルの質問応答(DCQA)という新しいタスクを導入する。本課題は,まず文書レイアウト分析 (DLA) を用いて文書内のチャートやプロットを抽出し,次にチャート質問応答 (CQA) を実行することである。新たに開発されたベンチマークデータセットは、チャートを幅広いスタイルで統合する50,010の合成文書(PlotQAとChartQAの3に対して6スタイル)と、高い推論能力と常識理解を要求する699,051の質問を含む。また,テーブルデータ,豊かなカラーセット,基本的な質問テンプレートを用いて,大量の質問応答ペアを自動的に生成する強力な質問応答生成エンジンの開発も行った。 DCQAに基づいて、文書レベルのチャート指向理解のためのOCRフリートランスフォーマーを考案し、複雑な推論や常識的な質問にOCRフリーで答える。我々のDCQAデータセットは、特に視覚的に豊かな文書のチャートに複雑な推論を必要とするシナリオについて、文書の可視化を理解する研究を促進することが期待されている。我々は,一連のベースラインを実装し,評価し,提案手法は同等の結果を得る。

関連論文リスト

RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning [63.599057862999]
RefChartQAは、Chart Question Answering(ChartQA)とビジュアルグラウンドを統合した、新しいベンチマークである。実験により,グラウンド化による空間認識を取り入れることで,応答精度が15%以上向上することが実証された。
論文参考訳（メタデータ） (2025-03-29T15:50:08Z)
Chart-HQA: A Benchmark for Hypothetical Question Answering in Charts [62.45232157149698]
本稿では,同じ質問に対して仮定を課し,グラフの内容に基づいた反実的推論を行うようモデルに強制する,新しいChart hypothetical Question Answering (HQA)タスクを提案する。さらに,MLLMの効率的なテキスト編集機能と人間の知識を併用して,多種多様な高品質HQAデータを低コストで生成する,人間とAIの対話型データ合成手法であるHAIを導入する。
論文参考訳（メタデータ） (2025-03-06T05:08:40Z)
Enhancing Question Answering on Charts Through Effective Pre-training Tasks [26.571522748519584]
グラフやプロットに適用した場合の現在のVisualQAモデルの制限に対処する。以上の結果から,既存のモデルでは,図の構造的・視覚的文脈に関する疑問に答える上で,特に性能が低いことが示唆された。本稿では,構造的・視覚的知識と数値的疑問の理解の両面から,既存のモデルを強制する3つの簡単な事前学習タスクを提案する。
論文参考訳（メタデータ） (2024-06-14T14:40:10Z)
JDocQA: Japanese Document Question Answering Dataset for Generative Language Models [15.950718839723027]
本稿では,大規模文書ベースのQAデータセットであるJDocQAについて紹介する。 PDF形式で5,504件の文書と日本語で11,600件の質問・回答文からなる。現実的な質問応答アプリケーションのために,複数のカテゴリの質問と,文書から解答不能な質問を取り入れた。
論文参考訳（メタデータ） (2024-03-28T14:22:54Z)
NewsQs: Multi-Source Question Generation for the Inquiring Mind [59.79288644158271]
我々は複数のニュース文書に対して質問応答ペアを提供するデータセットであるNewsQsを紹介する。 FAQスタイルのニュース記事に微調整されたT5-Largeモデルによって自動生成される質問を,従来のマルチドキュメント要約データセットに拡張する。
論文参考訳（メタデータ） (2024-02-28T16:59:35Z)
PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文参考訳（メタデータ） (2023-09-16T04:29:05Z)
Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text Documents via Semantic-Oriented Hierarchical Graphs [79.0426838808629]
視覚的にリッチなテーブルテキスト文書に答えるTAT-DQAを提案する。具体的には、離散推論機能を強化した新しいDoc2SoarGraphフレームワークを提案する。我々は,TAT-DQAデータセットに関する広範な実験を行い,提案したフレームワークは,テストセット上でのエクサクティマッチ(EM)とF1スコアでそれぞれ17.73%,F1スコアで16.91%の最高のベースラインモデルを上回る結果を得た。
論文参考訳（メタデータ） (2023-05-03T07:30:32Z)
OpenCQA: Open-ended Question Answering with Charts [6.7038829115674945]
我々はOpenCQAと呼ばれる新しいタスクを導入し、そこではグラフに関するオープンな質問にテキストで答えることが目的である。 3つの実践的な設定の下で,一連のベースラインを実装し,評価する。結果から,トップパフォーマンスモデルは通常,流動的かつコヒーレントなテキストを生成することが示された。
論文参考訳（メタデータ） (2022-10-12T23:37:30Z)
Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文参考訳（メタデータ） (2022-07-25T01:43:19Z)
Classification-Regression for Chart Comprehension [16.311371103939205]
チャート質問応答(CQA)は、チャート理解を評価するために用いられるタスクである。分類と回帰を共同で学習する新しいモデルを提案する。私たちのモデルのエッジは、特に語彙外回答の質問に重点を置いています。
論文参考訳（メタデータ） (2021-11-29T18:46:06Z)
Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。我々は,読者が情報を求めるための実践的な戦略に携わることを示す。我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文参考訳（メタデータ） (2020-10-04T19:03:39Z)
Semantic Graphs for Generating Deep Questions [98.5161888878238]
本稿では、まず、入力文書のセマンティックレベルグラフを構築し、次にアテンションベースのGGNN(Att-GGNN)を導入してセマンティックグラフを符号化する新しいフレームワークを提案する。 HotpotQAのDeep-question中心のデータセットでは、複数の事実の推論を必要とする問題よりもパフォーマンスが大幅に向上し、最先端のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2020-04-27T10:52:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。