論文の概要: Hierarchical multimodal transformers for Multi-Page DocVQA
- arxiv url: http://arxiv.org/abs/2212.05935v1
- Date: Wed, 7 Dec 2022 10:09:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 18:52:07.100685
- Title: Hierarchical multimodal transformers for Multi-Page DocVQA
- Title(参考訳): 多ページdocvqa用階層型マルチモーダルトランスフォーマー
- Authors: Rub\`en Tito, Dimosthenis Karatzas and Ernest Valveny
- Abstract要約: DocVQAの既存の作業は、シングルページのドキュメントのみを考慮している。
この作業では、DocVQAをマルチページシナリオに拡張します。
長いマルチページ文書を処理するための現在の手法の限界を克服する新しい階層的手法であるHi-VT5を提案する。
- 参考スコア(独自算出の注目度): 9.115927248875566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document Visual Question Answering (DocVQA) refers to the task of answering
questions from document images. Existing work on DocVQA only considers
single-page documents. However, in real scenarios documents are mostly composed
of multiple pages that should be processed altogether. In this work we extend
DocVQA to the multi-page scenario. For that, we first create a new dataset,
MP-DocVQA, where questions are posed over multi-page documents instead of
single pages. Second, we propose a new hierarchical method, Hi-VT5, based on
the T5 architecture, that overcomes the limitations of current methods to
process long multi-page documents. The proposed method is based on a
hierarchical transformer architecture where the encoder summarizes the most
relevant information of every page and then, the decoder takes this summarized
information to generate the final answer. Through extensive experimentation, we
demonstrate that our method is able, in a single stage, to answer the questions
and provide the page that contains the relevant information to find the answer,
which can be used as a kind of explainability measure.
- Abstract(参考訳): Document Visual Question Answering (DocVQA)は、文書イメージから質問に答えるタスクである。
DocVQAの既存の作業は、シングルページのドキュメントのみを考慮している。
しかし、実際のシナリオでは、ドキュメントは主に、完全に処理されるべき複数のページで構成されています。
この作業では、DocVQAをマルチページシナリオに拡張します。
そのため、まずMP-DocVQAという新しいデータセットを作成し、単一のページではなく複数ページのドキュメントに質問を提示する。
第2に,t5アーキテクチャに基づく新しい階層的手法であるhi-vt5を提案する。
提案手法は,エンコーダが各ページの最も関連する情報を要約し,その要約情報をデコーダが取り出して最終回答を生成する階層的トランスフォーマアーキテクチャに基づいている。
広範な実験を通じて,本手法は一つの段階において,質問に答えることができ,回答を見つけるための関連情報を含むページを提供し,ある種の説明可能性尺度として利用できることを示した。
関連論文リスト
- NewsQs: Multi-Source Question Generation for the Inquiring Mind [62.36817838718306]
我々は複数のニュース文書に対して質問応答ペアを提供するデータセットであるNewsQsを紹介する。
FAQスタイルのニュース記事に微調整されたT5-Largeモデルによって自動生成される質問を,従来のマルチドキュメント要約データセットに拡張する。
論文 参考訳(メタデータ) (2024-02-28T16:59:35Z) - CFRet-DVQA: Coarse-to-Fine Retrieval and Efficient Tuning for Document
Visual Question Answering [3.8065968624597324]
Document Visual Question Answering (DVQA)は、画像の内容に基づいてクエリに応答するタスクである。
既存の作業は、単一のページ内で情報を見つけることに限定されており、ページ間の質問と回答のやり取りを容易にすることはない。
本稿では,CFRet-DVQAについて紹介する。
論文 参考訳(メタデータ) (2024-02-26T01:17:50Z) - GRAM: Global Reasoning for Multi-Page VQA [15.543765325723658]
計算量の多い事前学習を必要とせずに,事前学習したシングルページモデルを複数ページ設定にシームレスに拡張するGRAMを提案する。
そのため、ローカルページレベルの理解にシングルページエンコーダを活用し、文書レベルの指定層と学習可能なトークンで拡張する。
復号化時に計算量を削減するために、符号化されたシーケンス長を小さくする任意の圧縮ステージを導入する。
論文 参考訳(メタデータ) (2024-01-07T08:03:06Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - PDFVQA: A New Dataset for Real-World VQA on PDF Documents [2.105395241374678]
文書ベースのビジュアル質問回答は、自然言語質問の条件下での文書イメージの文書理解を検証する。
我々のPDF-VQAデータセットは、単一のドキュメントページ上の制限を、複数のページの全ドキュメントに対して質問する新しいスケールに拡張する。
論文 参考訳(メタデータ) (2023-04-13T12:28:14Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - Learning Diverse Document Representations with Deep Query Interactions
for Dense Retrieval [79.37614949970013]
そこで本研究では,問合せの深い文書表現を学習する高密度検索モデルを提案する。
本モデルでは,各文書に生成した擬似クエリをエンコードして,クエリインフォームド・マルチビュー文書表現を得る。
論文 参考訳(メタデータ) (2022-08-08T16:00:55Z) - Multi-View Document Representation Learning for Open-Domain Dense
Retrieval [87.11836738011007]
本稿では,多視点文書表現学習フレームワークを提案する。
ドキュメントを表現し、異なるクエリに合わせるように強制するために、マルチビューの埋め込みを作成することを目的としている。
実験により,本手法は最近の成果より優れ,最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-03-16T03:36:38Z) - End-to-End Multihop Retrieval for Compositional Question Answering over
Long Documents [93.55268936974971]
本稿では,長い文書の合成問題に答えるマルチホップ検索手法であるDocHopperを提案する。
各ステップでDocHopperは文書から段落や文を検索し、検索した結果とクエリを混合し、次のステップでクエリを更新する。
文書構造を活用すれば、長い文書の質問応答や検索性能を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2021-06-01T03:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。