Fugu-MT 論文翻訳(概要): Hierarchical multimodal transformers for Multi-Page DocVQA

論文の概要: Hierarchical multimodal transformers for Multi-Page DocVQA

arxiv url: http://arxiv.org/abs/2212.05935v1
Date: Wed, 7 Dec 2022 10:09:49 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-18 18:52:07.100685
Title: Hierarchical multimodal transformers for Multi-Page DocVQA
Title（参考訳）: 多ページdocvqa用階層型マルチモーダルトランスフォーマー
Authors: Rub\`en Tito, Dimosthenis Karatzas and Ernest Valveny
Abstract要約: DocVQAの既存の作業は、シングルページのドキュメントのみを考慮している。この作業では、DocVQAをマルチページシナリオに拡張します。長いマルチページ文書を処理するための現在の手法の限界を克服する新しい階層的手法であるHi-VT5を提案する。
参考スコア（独自算出の注目度）: 9.115927248875566
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Document Visual Question Answering (DocVQA) refers to the task of answering questions from document images. Existing work on DocVQA only considers single-page documents. However, in real scenarios documents are mostly composed of multiple pages that should be processed altogether. In this work we extend DocVQA to the multi-page scenario. For that, we first create a new dataset, MP-DocVQA, where questions are posed over multi-page documents instead of single pages. Second, we propose a new hierarchical method, Hi-VT5, based on the T5 architecture, that overcomes the limitations of current methods to process long multi-page documents. The proposed method is based on a hierarchical transformer architecture where the encoder summarizes the most relevant information of every page and then, the decoder takes this summarized information to generate the final answer. Through extensive experimentation, we demonstrate that our method is able, in a single stage, to answer the questions and provide the page that contains the relevant information to find the answer, which can be used as a kind of explainability measure.
Abstract（参考訳）: Document Visual Question Answering (DocVQA)は、文書イメージから質問に答えるタスクである。 DocVQAの既存の作業は、シングルページのドキュメントのみを考慮している。しかし、実際のシナリオでは、ドキュメントは主に、完全に処理されるべき複数のページで構成されています。この作業では、DocVQAをマルチページシナリオに拡張します。そのため、まずMP-DocVQAという新しいデータセットを作成し、単一のページではなく複数ページのドキュメントに質問を提示する。第2に,t5アーキテクチャに基づく新しい階層的手法であるhi-vt5を提案する。提案手法は,エンコーダが各ページの最も関連する情報を要約し,その要約情報をデコーダが取り出して最終回答を生成する階層的トランスフォーマアーキテクチャに基づいている。広範な実験を通じて,本手法は一つの段階において,質問に答えることができ,回答を見つけるための関連情報を含むページを提供し,ある種の説明可能性尺度として利用できることを示した。

関連論文リスト

Docopilot: Improving Multimodal Models for Document-Level Understanding [87.60020625241178]
マルチモーダル文書の詳細な理解を支援するために,高品質な文書レベルデータセットDoc-750Kを提案する。このデータセットには、さまざまなドキュメント構造、広範なクロスページ依存関係、および元のドキュメントから派生した実際の質問と回答のペアが含まれている。データセットに基づいて、RAGに頼ることなく、文書レベルの依存関係を正確に処理できるネイティブなマルチモーダルモデルであるDocopilotを開発する。
論文参考訳（メタデータ） (2025-07-19T16:03:34Z)
SimpleDoc: Multi-Modal Document Understanding with Dual-Cue Page Retrieval and Iterative Refinement [17.272061289197342]
Document Visual Question Answering (DocVQA)は実用的で難しいタスクである。最近の手法は、同様のRAG(Retrieval Augmented Generation)パイプラインに従う。 DocVQA用の拡張フレームワークであるSimpleDocを紹介します。
論文参考訳（メタデータ） (2025-06-16T22:15:58Z)
M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding [63.33447665725129]
M3DocRAGは、様々な文書コンテキストに柔軟に対応する新しいマルチモーダルRAGフレームワークである。 M3DocRAGは視覚情報を保存しながら、単一の文書や多数の文書を効率的に処理できる。 M3DocVQAはオープンドメインDocVQAを3,000以上のPDFドキュメントと4万以上のページで評価するための新しいベンチマークである。
論文参考訳（メタデータ） (2024-11-07T18:29:38Z)
Multi-Page Document Visual Question Answering using Self-Attention Scoring Mechanism [12.289101189321181]
Document Visual Question Answering (Document VQA)は、文書理解と自然言語処理のコミュニティから大きな関心を集めている。最先端の単一ページのDocument VQAメソッドは、素晴らしいパフォーマンスを示しているが、マルチページのシナリオでは、これらのメソッドは苦労している。マルチページ文書VQAタスクのための新しい手法と効率的なトレーニング戦略を提案する。
論文参考訳（メタデータ） (2024-04-29T18:07:47Z)
NewsQs: Multi-Source Question Generation for the Inquiring Mind [59.79288644158271]
我々は複数のニュース文書に対して質問応答ペアを提供するデータセットであるNewsQsを紹介する。 FAQスタイルのニュース記事に微調整されたT5-Largeモデルによって自動生成される質問を,従来のマルチドキュメント要約データセットに拡張する。
論文参考訳（メタデータ） (2024-02-28T16:59:35Z)
GRAM: Global Reasoning for Multi-Page VQA [14.980413646626234]
本稿では,事前学習したシングルページモデルをマルチページ設定にシームレスに拡張するGRAMを提案する。そのため、ローカルページレベルの理解にシングルページエンコーダを活用し、文書レベルの指定層と学習可能なトークンで拡張する。復号化時に計算量を増やすため、任意の圧縮段階を導入する。
論文参考訳（メタデータ） (2024-01-07T08:03:06Z)
PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文参考訳（メタデータ） (2023-09-16T04:29:05Z)
PDFVQA: A New Dataset for Real-World VQA on PDF Documents [2.105395241374678]
文書ベースのビジュアル質問回答は、自然言語質問の条件下での文書イメージの文書理解を検証する。我々のPDF-VQAデータセットは、単一のドキュメントページ上の制限を、複数のページの全ドキュメントに対して質問する新しいスケールに拡張する。
論文参考訳（メタデータ） (2023-04-13T12:28:14Z)
Generate rather than Retrieve: Large Language Models are Strong Context Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文参考訳（メタデータ） (2022-09-21T01:30:59Z)
Multi-View Document Representation Learning for Open-Domain Dense Retrieval [87.11836738011007]
本稿では,多視点文書表現学習フレームワークを提案する。ドキュメントを表現し、異なるクエリに合わせるように強制するために、マルチビューの埋め込みを作成することを目的としている。実験により,本手法は最近の成果より優れ,最先端の結果が得られた。
論文参考訳（メタデータ） (2022-03-16T03:36:38Z)
End-to-End Multihop Retrieval for Compositional Question Answering over Long Documents [93.55268936974971]
本稿では,長い文書の合成問題に答えるマルチホップ検索手法であるDocHopperを提案する。各ステップでDocHopperは文書から段落や文を検索し、検索した結果とクエリを混合し、次のステップでクエリを更新する。文書構造を活用すれば、長い文書の質問応答や検索性能を大幅に改善できることを示す。
論文参考訳（メタデータ） (2021-06-01T03:13:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。