論文の概要: Towards Complex Document Understanding By Discrete Reasoning
- arxiv url: http://arxiv.org/abs/2207.11871v3
- Date: Thu, 4 May 2023 14:30:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 19:49:27.603877
- Title: Towards Complex Document Understanding By Discrete Reasoning
- Title(参考訳): 離散推論による複雑な文書理解に向けて
- Authors: Fengbin Zhu, Wenqiang Lei, Fuli Feng, Chao Wang, Haozhou Zhang,
Tat-Seng Chua
- Abstract要約: VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
- 参考スコア(独自算出の注目度): 77.91722463958743
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document Visual Question Answering (VQA) aims to understand visually-rich
documents to answer questions in natural language, which is an emerging
research topic for both Natural Language Processing and Computer Vision. In
this work, we introduce a new Document VQA dataset, named TAT-DQA, which
consists of 3,067 document pages comprising semi-structured table(s) and
unstructured text as well as 16,558 question-answer pairs by extending the
TAT-QA dataset. These documents are sampled from real-world financial reports
and contain lots of numbers, which means discrete reasoning capability is
demanded to answer questions on this dataset. Based on TAT-DQA, we further
develop a novel model named MHST that takes into account the information in
multi-modalities, including text, layout and visual image, to intelligently
address different types of questions with corresponding strategies, i.e.,
extraction or reasoning. Extensive experiments show that the MHST model
significantly outperforms the baseline methods, demonstrating its
effectiveness. However, the performance still lags far behind that of expert
humans. We expect that our new TAT-DQA dataset would facilitate the research on
deep understanding of visually-rich documents combining vision and language,
especially for scenarios that require discrete reasoning. Also, we hope the
proposed model would inspire researchers to design more advanced Document VQA
models in future. Our dataset will be publicly available for non-commercial use
at https://nextplusplus.github.io/TAT-DQA/.
- Abstract(参考訳): Document Visual Question Answering (VQA) は、自然言語処理とコンピュータビジョンの両方において新たな研究トピックである自然言語による質問に答えるために、視覚的に豊富な文書を理解することを目的としている。
本研究では, 半構造化テーブルと非構造化テキストからなる3,067の文書ページと, TAT-DQAデータセットを拡張した16,558の質問応答ペアからなる新しい文書VQAデータセット, TAT-DQAを紹介する。
これらの文書は現実世界の財務報告からサンプリングされ、多数の数字を含んでいるため、このデータセットの質問に答えるために個別の推論能力が要求される。
TAT-DQAに基づいて、テキスト、レイアウト、視覚画像を含む多要素の情報を考慮に入れたMHSTと呼ばれる新しいモデルを開発し、対応する戦略、すなわち抽出や推論で異なるタイプの質問にインテリジェントに対処する。
大規模な実験により、MHSTモデルはベースライン法を著しく上回り、その有効性を示した。
しかし、パフォーマンスは専門家の人間よりもずっと遅れています。
我々の新しいTAT-DQAデータセットは、視覚と言語、特に離散的推論を必要とするシナリオにおいて、視覚に富んだドキュメントの深い理解を促進することを期待する。
また,提案モデルが今後,より高度なドキュメントVQAモデルの設計を促すことを期待している。
当社のデータセットは、https://nextplus.github.io/TAT-DQA/で非商用使用のために公開されます。
関連論文リスト
- CT2C-QA: Multimodal Question Answering over Chinese Text, Table and Chart [26.54501344351476]
C$textT2$C-QAは中国の推論に基づくQAデータセットであり、テキスト、テーブル、チャートの広範なコレクションを含んでいる。
我々のデータセットは、実際のWebページをシミュレートし、マルチモーダルデータを用いてモデルを分析し、推論する能力の優れたテストとして役立ちます。
論文 参考訳(メタデータ) (2024-10-28T18:13:14Z) - SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers [43.18330795060871]
SPIQAは、科学研究論文の文脈内で複雑な図形や表を解釈するために設計されたデータセットである。
データセット作成には自動および手動のキュレーションを使用します。
SPIQAは270Kの質問をトレーニング、検証、3つの異なる評価分割に分割する。
論文 参考訳(メタデータ) (2024-07-12T16:37:59Z) - DCQA: Document-Level Chart Question Answering towards Complex Reasoning
and Common-Sense Understanding [19.713647367008143]
文書レベルの質問応答(DCQA)という新しいタスクを導入する。
新たに開発されたベンチマークデータセットは、チャートを幅広いスタイルで統合した50,010の合成文書からなる。
本稿では,テーブルデータ,リッチな色集合,および基本的な質問テンプレートを利用する強力な質問応答生成エンジンの開発について述べる。
論文 参考訳(メタデータ) (2023-10-29T11:38:08Z) - ViCLEVR: A Visual Reasoning Dataset and Hybrid Multimodal Fusion Model
for Visual Question Answering in Vietnamese [1.6340299456362617]
ベトナムにおける様々な視覚的推論能力を評価するための先駆的な収集であるViCLEVRデータセットを紹介した。
我々は、現代の視覚的推論システムの包括的な分析を行い、その強みと限界についての貴重な洞察を提供する。
PhoVITは、質問に基づいて画像中のオブジェクトを識別する総合的なマルチモーダル融合である。
論文 参考訳(メタデータ) (2023-10-27T10:44:50Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text
Documents via Semantic-Oriented Hierarchical Graphs [79.0426838808629]
視覚的にリッチなテーブルテキスト文書に答えるTAT-DQAを提案する。
具体的には、離散推論機能を強化した新しいDoc2SoarGraphフレームワークを提案する。
我々は,TAT-DQAデータセットに関する広範な実験を行い,提案したフレームワークは,テストセット上でのエクサクティマッチ(EM)とF1スコアでそれぞれ17.73%,F1スコアで16.91%の最高のベースラインモデルを上回る結果を得た。
論文 参考訳(メタデータ) (2023-05-03T07:30:32Z) - TAT-QA: A Question Answering Benchmark on a Hybrid of Tabular and
Textual Content in Finance [71.76018597965378]
TAT-QAと呼ばれるタブラデータとテクスチャデータの両方を含む新しい大規模な質問応答データセットを構築します。
本稿では,テーブルとテキストの両方を推論可能な新しいQAモデルであるTAGOPを提案する。
論文 参考訳(メタデータ) (2021-05-17T06:12:06Z) - A survey on VQA_Datasets and Approaches [0.0]
視覚的質問応答(VQA)は、コンピュータビジョンと自然言語処理の技法を組み合わせたタスクである。
本稿では、VQAタスクのために提案された既存のデータセット、メトリクス、モデルを検討および分析する。
論文 参考訳(メタデータ) (2021-05-02T08:50:30Z) - Open Question Answering over Tables and Text [55.8412170633547]
オープンな質問応答(QA)では、質問に対する回答は、質問に対する回答を含む可能性のある文書を検索して分析することによって生成される。
ほとんどのオープンQAシステムは、構造化されていないテキストからのみ情報を取得することを検討している。
我々は,このタスクの性能を評価するために,新しい大規模データセット Open Table-and-Text Question Answering (OTT-QA) を提案する。
論文 参考訳(メタデータ) (2020-10-20T16:48:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。