論文の概要: Towards Complex Document Understanding By Discrete Reasoning
- arxiv url: http://arxiv.org/abs/2207.11871v1
- Date: Mon, 25 Jul 2022 01:43:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 13:31:28.316503
- Title: Towards Complex Document Understanding By Discrete Reasoning
- Title(参考訳): 離散推論による複雑な文書理解に向けて
- Authors: Fengbin Zhu, Wenqiang Lei, Fuli Feng, Chao Wang, Haozhou Zhang,
Tat-Seng Chua
- Abstract要約: VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
- 参考スコア(独自算出の注目度): 77.91722463958743
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document Visual Question Answering (VQA) aims to understand visually-rich
documents to answer questions in natural language, which is an emerging
research topic for both Natural Language Processing and Computer Vision. In
this work, we introduce a new Document VQA dataset, named TAT-DQA, which
consists of 3,067 document pages comprising semi-structured table(s) and
unstructured text as well as 16,558 question-answer pairs by extending the
TAT-QA dataset. These documents are sampled from real-world financial reports
and contain lots of numbers, which means discrete reasoning capability is
demanded to answer questions on this dataset. Based on TAT-DQA, we further
develop a novel model named MHST that takes into account the information in
multi-modalities, including text, layout and visual image, to intelligently
address different types of questions with corresponding strategies, i.e.,
extraction or reasoning. Extensive experiments show that the MHST model
significantly outperforms the baseline methods, demonstrating its
effectiveness. However, the performance still lags far behind that of expert
humans. We expect that our new TAT-DQA dataset would facilitate the research on
deep understanding of visually-rich documents combining vision and language,
especially for scenarios that require discrete reasoning. Also, we hope the
proposed model would inspire researchers to design more advanced Document VQA
models in future.
- Abstract(参考訳): Document Visual Question Answering (VQA) は、自然言語処理とコンピュータビジョンの両方において新たな研究トピックである自然言語による質問に答えるために、視覚的に豊富な文書を理解することを目的としている。
本研究では, 半構造化テーブルと非構造化テキストからなる3,067の文書ページと, TAT-DQAデータセットを拡張した16,558の質問応答ペアからなる新しい文書VQAデータセット, TAT-DQAを紹介する。
これらの文書は現実世界の財務報告からサンプリングされ、多数の数字を含んでいるため、このデータセットの質問に答えるために個別の推論能力が要求される。
TAT-DQAに基づいて、テキスト、レイアウト、視覚画像を含む多要素の情報を考慮に入れたMHSTと呼ばれる新しいモデルを開発し、対応する戦略、すなわち抽出や推論で異なるタイプの質問にインテリジェントに対処する。
大規模な実験により、MHSTモデルはベースライン法を著しく上回り、その有効性を示した。
しかし、パフォーマンスは専門家の人間よりもずっと遅れています。
我々の新しいTAT-DQAデータセットは、視覚と言語、特に離散的推論を必要とするシナリオにおいて、視覚に富んだドキュメントの深い理解を促進することを期待する。
また,提案モデルが今後,より高度なドキュメントVQAモデルの設計を促すことを期待している。
関連論文リスト
- Self-Prompting Large Language Models for Open-Domain QA [84.1784903043884]
Open-Domain Question Answering (ODQA) は、コンテキストを指定せずに、ファクトイドの質問に答えるモデルを必要とする。
本稿では,大規模言語モデル(LLM)を知識コーパスとして扱うことにより,ODQAアーキテクチャを劇的に単純化できることを示す。
論文 参考訳(メタデータ) (2022-12-16T18:23:43Z) - Detect, Retrieve, Comprehend: A Flexible Framework for Zero-Shot
Document-Level Question Answering [3.214377927241889]
質問応答(QA)は、人間の提案する質問が多様な知識を抽出するために適応できる柔軟なフレームワークを提供する。
既存のQAデータセットは、現実世界のアプリケーションでは非現実的な、短く、明確に定義されたコンテキストを提供することによって、この課題を後押しする。
本稿では,PDFからテキストを抽出する3段階の文書QAアプローチ,抽出したテキストからエビデンスを抽出して適切な文脈を形成する方法,文脈から知識を抽出して高品質な回答を返すためのQAを提案する。
論文 参考訳(メタデータ) (2022-10-04T23:33:52Z) - TAG: Boosting Text-VQA via Text-aware Visual Question-answer Generation [55.83319599681002]
Text-VQAは、画像中のテキストの手がかりを理解する必要がある質問に答えることを目的としている。
画像のシーンコンテキストで利用可能な既存のリッチテキストを明示的に利用することにより,高品質で多様なQAペアを生成する方法を開発した。
論文 参考訳(メタデータ) (2022-08-03T02:18:09Z) - A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge [39.788346536244504]
A-OKVQAは、約25万の質問からなるクラウドソーシングデータセットである。
我々は、この新たなデータセットの可能性について、その内容の詳細な分析を通して示す。
論文 参考訳(メタデータ) (2022-06-03T17:52:27Z) - TAT-QA: A Question Answering Benchmark on a Hybrid of Tabular and
Textual Content in Finance [71.76018597965378]
TAT-QAと呼ばれるタブラデータとテクスチャデータの両方を含む新しい大規模な質問応答データセットを構築します。
本稿では,テーブルとテキストの両方を推論可能な新しいQAモデルであるTAGOPを提案する。
論文 参考訳(メタデータ) (2021-05-17T06:12:06Z) - A survey on VQA_Datasets and Approaches [0.0]
視覚的質問応答(VQA)は、コンピュータビジョンと自然言語処理の技法を組み合わせたタスクである。
本稿では、VQAタスクのために提案された既存のデータセット、メトリクス、モデルを検討および分析する。
論文 参考訳(メタデータ) (2021-05-02T08:50:30Z) - VisualMRC: Machine Reading Comprehension on Document Images [4.057968826847943]
質問と文書画像が与えられたとき、機械は自然言語で質問に答えるために画像中のテキストを読み、理解する。
VisualMRCは、自然言語の理解と生成能力の開発に重点を置いている。
これには3万以上の質問と、Webページの複数のドメインから得られた1万以上のドキュメントイメージの抽象的な回答が含まれている。
論文 参考訳(メタデータ) (2021-01-27T09:03:06Z) - QBSUM: a Large-Scale Query-Based Document Summarization Dataset from
Real-world Applications [20.507631900617817]
提案するQBSUMは,中国語クエリベースの文書要約処理のための49,000以上のデータサンプルからなる高品質な大規模データセットである。
また,タスクに対する教師なしおよび教師なしの複数のソリューションを提案し,オフライン実験とオンラインA/Bテストの両方を通して,高速な推論と優れた性能を示す。
論文 参考訳(メタデータ) (2020-10-27T07:30:04Z) - Open Question Answering over Tables and Text [55.8412170633547]
オープンな質問応答(QA)では、質問に対する回答は、質問に対する回答を含む可能性のある文書を検索して分析することによって生成される。
ほとんどのオープンQAシステムは、構造化されていないテキストからのみ情報を取得することを検討している。
我々は,このタスクの性能を評価するために,新しい大規模データセット Open Table-and-Text Question Answering (OTT-QA) を提案する。
論文 参考訳(メタデータ) (2020-10-20T16:48:14Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。