論文の概要: Hierarchical multimodal transformers for Multi-Page DocVQA
- arxiv url: http://arxiv.org/abs/2212.05935v1
- Date: Wed, 7 Dec 2022 10:09:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 18:52:07.100685
- Title: Hierarchical multimodal transformers for Multi-Page DocVQA
- Title(参考訳): 多ページdocvqa用階層型マルチモーダルトランスフォーマー
- Authors: Rub\`en Tito, Dimosthenis Karatzas and Ernest Valveny
- Abstract要約: DocVQAの既存の作業は、シングルページのドキュメントのみを考慮している。
この作業では、DocVQAをマルチページシナリオに拡張します。
長いマルチページ文書を処理するための現在の手法の限界を克服する新しい階層的手法であるHi-VT5を提案する。
- 参考スコア(独自算出の注目度): 9.115927248875566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document Visual Question Answering (DocVQA) refers to the task of answering
questions from document images. Existing work on DocVQA only considers
single-page documents. However, in real scenarios documents are mostly composed
of multiple pages that should be processed altogether. In this work we extend
DocVQA to the multi-page scenario. For that, we first create a new dataset,
MP-DocVQA, where questions are posed over multi-page documents instead of
single pages. Second, we propose a new hierarchical method, Hi-VT5, based on
the T5 architecture, that overcomes the limitations of current methods to
process long multi-page documents. The proposed method is based on a
hierarchical transformer architecture where the encoder summarizes the most
relevant information of every page and then, the decoder takes this summarized
information to generate the final answer. Through extensive experimentation, we
demonstrate that our method is able, in a single stage, to answer the questions
and provide the page that contains the relevant information to find the answer,
which can be used as a kind of explainability measure.
- Abstract(参考訳): Document Visual Question Answering (DocVQA)は、文書イメージから質問に答えるタスクである。
DocVQAの既存の作業は、シングルページのドキュメントのみを考慮している。
しかし、実際のシナリオでは、ドキュメントは主に、完全に処理されるべき複数のページで構成されています。
この作業では、DocVQAをマルチページシナリオに拡張します。
そのため、まずMP-DocVQAという新しいデータセットを作成し、単一のページではなく複数ページのドキュメントに質問を提示する。
第2に,t5アーキテクチャに基づく新しい階層的手法であるhi-vt5を提案する。
提案手法は,エンコーダが各ページの最も関連する情報を要約し,その要約情報をデコーダが取り出して最終回答を生成する階層的トランスフォーマアーキテクチャに基づいている。
広範な実験を通じて,本手法は一つの段階において,質問に答えることができ,回答を見つけるための関連情報を含むページを提供し,ある種の説明可能性尺度として利用できることを示した。
関連論文リスト
- M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding [63.33447665725129]
M3DocRAGは、様々な文書コンテキストに柔軟に対応する新しいマルチモーダルRAGフレームワークである。
M3DocRAGは視覚情報を保存しながら、単一の文書や多数の文書を効率的に処理できる。
M3DocVQAはオープンドメインDocVQAを3,000以上のPDFドキュメントと4万以上のページで評価するための新しいベンチマークである。
論文 参考訳(メタデータ) (2024-11-07T18:29:38Z) - Multi-Page Document Visual Question Answering using Self-Attention Scoring Mechanism [12.289101189321181]
Document Visual Question Answering (Document VQA)は、文書理解と自然言語処理のコミュニティから大きな関心を集めている。
最先端の単一ページのDocument VQAメソッドは、素晴らしいパフォーマンスを示しているが、マルチページのシナリオでは、これらのメソッドは苦労している。
マルチページ文書VQAタスクのための新しい手法と効率的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-04-29T18:07:47Z) - NewsQs: Multi-Source Question Generation for the Inquiring Mind [59.79288644158271]
我々は複数のニュース文書に対して質問応答ペアを提供するデータセットであるNewsQsを紹介する。
FAQスタイルのニュース記事に微調整されたT5-Largeモデルによって自動生成される質問を,従来のマルチドキュメント要約データセットに拡張する。
論文 参考訳(メタデータ) (2024-02-28T16:59:35Z) - GRAM: Global Reasoning for Multi-Page VQA [14.980413646626234]
本稿では,事前学習したシングルページモデルをマルチページ設定にシームレスに拡張するGRAMを提案する。
そのため、ローカルページレベルの理解にシングルページエンコーダを活用し、文書レベルの指定層と学習可能なトークンで拡張する。
復号化時に計算量を増やすため、任意の圧縮段階を導入する。
論文 参考訳(メタデータ) (2024-01-07T08:03:06Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - PDFVQA: A New Dataset for Real-World VQA on PDF Documents [2.105395241374678]
文書ベースのビジュアル質問回答は、自然言語質問の条件下での文書イメージの文書理解を検証する。
我々のPDF-VQAデータセットは、単一のドキュメントページ上の制限を、複数のページの全ドキュメントに対して質問する新しいスケールに拡張する。
論文 参考訳(メタデータ) (2023-04-13T12:28:14Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - Multi-View Document Representation Learning for Open-Domain Dense
Retrieval [87.11836738011007]
本稿では,多視点文書表現学習フレームワークを提案する。
ドキュメントを表現し、異なるクエリに合わせるように強制するために、マルチビューの埋め込みを作成することを目的としている。
実験により,本手法は最近の成果より優れ,最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-03-16T03:36:38Z) - End-to-End Multihop Retrieval for Compositional Question Answering over
Long Documents [93.55268936974971]
本稿では,長い文書の合成問題に答えるマルチホップ検索手法であるDocHopperを提案する。
各ステップでDocHopperは文書から段落や文を検索し、検索した結果とクエリを混合し、次のステップでクエリを更新する。
文書構造を活用すれば、長い文書の質問応答や検索性能を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2021-06-01T03:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。