論文の概要: GRAM: Global Reasoning for Multi-Page VQA
- arxiv url: http://arxiv.org/abs/2401.03411v2
- Date: Mon, 18 Mar 2024 09:47:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 02:32:42.989751
- Title: GRAM: Global Reasoning for Multi-Page VQA
- Title(参考訳): GRAM:マルチページVQAのためのグローバル推論
- Authors: Tsachi Blau, Sharon Fogel, Roi Ronen, Alona Golts, Roy Ganz, Elad Ben Avraham, Aviad Aberdam, Shahar Tsiper, Ron Litman,
- Abstract要約: 本稿では,事前学習したシングルページモデルをマルチページ設定にシームレスに拡張するGRAMを提案する。
そのため、ローカルページレベルの理解にシングルページエンコーダを活用し、文書レベルの指定層と学習可能なトークンで拡張する。
復号化時に計算量を増やすため、任意の圧縮段階を導入する。
- 参考スコア(独自算出の注目度): 14.980413646626234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing use of transformer-based large language models brings forward the challenge of processing long sequences. In document visual question answering (DocVQA), leading methods focus on the single-page setting, while documents can span hundreds of pages. We present GRAM, a method that seamlessly extends pre-trained single-page models to the multi-page setting, without requiring computationally-heavy pretraining. To do so, we leverage a single-page encoder for local page-level understanding, and enhance it with document-level designated layers and learnable tokens, facilitating the flow of information across pages for global reasoning. To enforce our model to utilize the newly introduced document tokens, we propose a tailored bias adaptation method. For additional computational savings during decoding, we introduce an optional compression stage using our compression-transformer (C-Former),reducing the encoded sequence length, thereby allowing a tradeoff between quality and latency. Extensive experiments showcase GRAM's state-of-the-art performance on the benchmarks for multi-page DocVQA, demonstrating the effectiveness of our approach.
- Abstract(参考訳): トランスフォーマーベースの大規模言語モデルの利用が増加し、長いシーケンスを処理するという課題がもたらされる。
ドキュメント視覚的質問応答(DocVQA)では、主要な手法は単一ページの設定に焦点を当て、文書は数百ページに及ぶ。
計算量の多い事前学習を必要とせずに,事前学習したシングルページモデルを複数ページ設定にシームレスに拡張するGRAMを提案する。
そこで我々は,局所的なページレベルの理解にシングルページエンコーダを活用し,それを文書レベルの指定層や学習可能なトークンで拡張し,グローバルな推論のためにページ間の情報の流れを容易にする。
そこで本研究では,新たに導入された文書トークンを利用するためのモデルを提案する。
復号化の際に,圧縮変換器(C-Former)を用いた任意の圧縮ステージを導入し,符号化シーケンス長を低減し,品質とレイテンシのトレードオフを可能にする。
大規模実験では,多ページDocVQAのベンチマークでGRAMの最先端性能を示し,本手法の有効性を実証した。
関連論文リスト
- MMTryon: Multi-Modal Multi-Reference Control for High-Quality Fashion Generation [70.83668869857665]
MMTryonはマルチモーダルなマルチ参照VIrtual Try-ONフレームワークである。
テキスト命令と複数の衣料品画像とを入力として、高品質な合成試行結果を生成することができる。
論文 参考訳(メタデータ) (2024-05-01T11:04:22Z) - Multi-Page Document Visual Question Answering using Self-Attention Scoring Mechanism [12.289101189321181]
Document Visual Question Answering (Document VQA)は、文書理解と自然言語処理のコミュニティから大きな関心を集めている。
最先端の単一ページのDocument VQAメソッドは、素晴らしいパフォーマンスを示しているが、マルチページのシナリオでは、これらのメソッドは苦労している。
マルチページ文書VQAタスクのための新しい手法と効率的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-04-29T18:07:47Z) - Visually Guided Generative Text-Layout Pre-training for Document Intelligence [51.09853181377696]
視覚誘導型生成テキスト事前学習(ViTLP)を提案する。
文書画像が与えられた場合、モデルは階層言語とレイアウトモデリングの目的を最適化し、インターリーブされたテキストとレイアウトシーケンスを生成する。
ViTLPは、文書画像のテキストをローカライズし、認識するためのネイティブなOCRモデルとして機能する。
論文 参考訳(メタデータ) (2024-03-25T08:00:43Z) - CFRet-DVQA: Coarse-to-Fine Retrieval and Efficient Tuning for Document
Visual Question Answering [3.8065968624597324]
Document Visual Question Answering (DVQA)は、画像の内容に基づいてクエリに応答するタスクである。
既存の作業は、単一のページ内で情報を見つけることに限定されており、ページ間の質問と回答のやり取りを容易にすることはない。
本稿では,CFRet-DVQAについて紹介する。
論文 参考訳(メタデータ) (2024-02-26T01:17:50Z) - Readout Guidance: Learning Control from Diffusion Features [96.22155562120231]
本稿では,学習信号を用いたテキスト・画像拡散モデル制御手法であるReadout Guidanceを提案する。
Readout Guidanceはリードアウトヘッドを使用し、トレーニング済みの凍結拡散モデルの特徴から信号を取り出すために訓練された軽量ネットワークである。
これらの読み出しは、ポーズ、深さ、エッジなどのシングルイメージ特性や、対応性や外観類似性といった複数の画像に関連する高次特性を符号化することができる。
論文 参考訳(メタデータ) (2023-12-04T18:59:32Z) - Context-Aware Classification of Legal Document Pages [7.306025535482021]
入力長の制約を克服する,単純だが効果的な手法を提案する。
具体的には、前のページのシーケンシャルな情報を含む余分なトークンで入力を強化する。
英語とポルトガル語の2つの法的データセットを用いて実験を行った結果,提案手法は文書ページ分類の性能を著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-04-05T23:14:58Z) - ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich
Document Understanding [52.3895498789521]
レイアウト知識を向上した新しい文書事前学習ソリューションであるERNIEを提案する。
まず、直列化段階で入力シーケンスを並べ替え、相関的な事前学習タスクを示し、順序予測を行い、文書の適切な読み順序を学習する。
実験の結果、ERNIEは様々な下流タスクにおいて優れた性能を示し、キー情報に新たな最先端設定、文書質問応答を実現している。
論文 参考訳(メタデータ) (2022-10-12T12:59:24Z) - XDoc: Unified Pre-training for Cross-Format Document Understanding [84.63416346227176]
XDocは、単一のモデルで異なるドキュメントフォーマットを扱う、統合された事前訓練されたモデルである。
XDocは、トレーニング済みの個々のモデルと比較して、さまざまなダウンストリームタスクで同等またはそれ以上のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-06T12:07:18Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - SelfDoc: Self-Supervised Document Representation Learning [46.22910270334824]
SelfDocは、文書イメージ理解のためのタスクに依存しない事前トレーニングフレームワークである。
本フレームワークは,文書中の意味的に意味のあるすべてのコンポーネントの位置情報,テキスト情報,視覚情報を利用する。
複数のダウンストリームタスクにおいて,事前学習段階で使用する文書イメージが従来よりも大幅に少なく,優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-06-07T04:19:49Z) - ERNIE-DOC: The Retrospective Long-Document Modeling Transformer [24.426571160930635]
Recurrence Transformersに基づく文書レベルの言語プリトレーニングモデルであるERNIE-DOCを提案する。
ふりかえりフィード機構とリカレンスメカニズムの強化という2つのよく設計されたテクニックにより、ELNIE-DOCははるかに長いコンテキスト長を実現できます。
英語と中国語の文書レベルのタスクについて様々な実験を行った。
論文 参考訳(メタデータ) (2020-12-31T16:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。