論文の概要: GRAM: Global Reasoning for Multi-Page VQA
- arxiv url: http://arxiv.org/abs/2401.03411v1
- Date: Sun, 7 Jan 2024 08:03:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 19:03:13.945267
- Title: GRAM: Global Reasoning for Multi-Page VQA
- Title(参考訳): GRAM:マルチページVQAのためのグローバル推論
- Authors: Tsachi Blau, Sharon Fogel, Roi Ronen, Alona Golts, Roy Ganz, Elad Ben
Avraham, Aviad Aberdam, Shahar Tsiper and Ron Litman
- Abstract要約: 計算量の多い事前学習を必要とせずに,事前学習したシングルページモデルを複数ページ設定にシームレスに拡張するGRAMを提案する。
そのため、ローカルページレベルの理解にシングルページエンコーダを活用し、文書レベルの指定層と学習可能なトークンで拡張する。
復号化時に計算量を削減するために、符号化されたシーケンス長を小さくする任意の圧縮ステージを導入する。
- 参考スコア(独自算出の注目度): 15.543765325723658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing use of transformer-based large language models brings forward
the challenge of processing long sequences. In document visual question
answering (DocVQA), leading methods focus on the single-page setting, while
documents can span hundreds of pages. We present GRAM, a method that seamlessly
extends pre-trained single-page models to the multi-page setting, without
requiring computationally-heavy pretraining. To do so, we leverage a
single-page encoder for local page-level understanding, and enhance it with
document-level designated layers and learnable tokens, facilitating the flow of
information across pages for global reasoning. To enforce our model to utilize
the newly introduced document-level tokens, we propose a tailored bias
adaptation method. For additional computational savings during decoding, we
introduce an optional compression stage using our C-Former model, which reduces
the encoded sequence length, thereby allowing a tradeoff between quality and
latency. Extensive experiments showcase GRAM's state-of-the-art performance on
the benchmarks for multi-page DocVQA, demonstrating the effectiveness of our
approach.
- Abstract(参考訳): トランスフォーマーベースの大規模言語モデルの利用の増加は、長いシーケンスを処理するという課題を先導する。
ドキュメント視覚的質問応答(DocVQA)では、主要な手法は単一ページの設定に焦点を当て、文書は数百ページに及ぶ。
計算量の多い事前学習を必要とせずに,事前学習したシングルページモデルを複数ページ設定にシームレスに拡張するGRAMを提案する。
そこで我々は,局所的なページレベルの理解にシングルページエンコーダを活用し,それを文書レベルの指定層や学習可能なトークンで拡張し,グローバルな推論のためにページ間の情報の流れを容易にする。
本稿では,新たに導入された文書レベルのトークンを利用するためのモデルを提案する。
復号化時に計算量を削減するため、C-Formerモデルを用いて任意の圧縮ステージを導入し、符号化シーケンス長を削減し、品質とレイテンシのトレードオフを可能にする。
大規模実験では,多ページDocVQAのベンチマークでGRAMの最先端性能を示し,本手法の有効性を示した。
関連論文リスト
- mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding [103.05835688963947]
本稿では,高解像度文書画像を324個のトークンに圧縮する高解像度DocCompressorモジュールを提案する。
DocOwl2は、マルチページ文書理解ベンチマークにまたがる最先端の新たなベンチマークを設定し、最初のトークンレイテンシを50%以上削減する。
同様のデータで訓練されたシングルイメージMLLMと比較して、DocOwl2はビジュアルトークンの20%未満で、同等のシングルページ理解性能を実現しています。
論文 参考訳(メタデータ) (2024-09-05T11:09:00Z) - Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding [54.532578213126065]
ほとんどの文書理解手法は、サブイメージ内の全てのトークンを保存し、それらを等しく扱う。
これにより、異なる情報性が無視され、画像トークンの数が大幅に増加する。
トークン処理を最適化するためのパラメータフリーかつプラグアンドプレイ手法であるトークンレベルの相関誘導圧縮を提案する。
論文 参考訳(メタデータ) (2024-07-19T16:11:15Z) - PostDoc: Generating Poster from a Long Multimodal Document Using Deep Submodular Optimization [15.90651992769166]
長い入力文書からのポスターは、優れたデザイン要素を持つ優れたテンプレート上に提示された1ページで読みやすいマルチモーダル(テキストと画像)の要約と見なすことができる。
本論文では,文書から多モードコンテンツを取り出すために,基底真実の要約に基づいて訓練できる新しいサブモジュール関数を提案する。
論文 参考訳(メタデータ) (2024-05-30T16:16:25Z) - Focus Anywhere for Fine-grained Multi-page Document Understanding [24.76897786595502]
本稿では,LVLMを単ページ/複数ページの文書に注目する上で,効果的パイプライン,ハイブリッドデータ,チューニング戦略であるFoxを提案する。
我々は、複数の視覚語彙を用いて、インターリーブされた文書ページの視覚的ハイブリッド知識を抽出する。
我々は、複数の視覚語彙と文書内図形理解の完全な反応を達成するために、複数の語彙間の視覚データを前景として描画する。
論文 参考訳(メタデータ) (2024-05-23T08:15:49Z) - Multi-Page Document Visual Question Answering using Self-Attention Scoring Mechanism [12.289101189321181]
Document Visual Question Answering (Document VQA)は、文書理解と自然言語処理のコミュニティから大きな関心を集めている。
最先端の単一ページのDocument VQAメソッドは、素晴らしいパフォーマンスを示しているが、マルチページのシナリオでは、これらのメソッドは苦労している。
マルチページ文書VQAタスクのための新しい手法と効率的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-04-29T18:07:47Z) - Visually Guided Generative Text-Layout Pre-training for Document Intelligence [51.09853181377696]
視覚誘導型生成テキスト事前学習(ViTLP)を提案する。
文書画像が与えられた場合、モデルは階層言語とレイアウトモデリングの目的を最適化し、インターリーブされたテキストとレイアウトシーケンスを生成する。
ViTLPは、文書画像のテキストをローカライズし、認識するためのネイティブなOCRモデルとして機能する。
論文 参考訳(メタデータ) (2024-03-25T08:00:43Z) - Context-Aware Classification of Legal Document Pages [7.306025535482021]
入力長の制約を克服する,単純だが効果的な手法を提案する。
具体的には、前のページのシーケンシャルな情報を含む余分なトークンで入力を強化する。
英語とポルトガル語の2つの法的データセットを用いて実験を行った結果,提案手法は文書ページ分類の性能を著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-04-05T23:14:58Z) - ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich
Document Understanding [52.3895498789521]
レイアウト知識を向上した新しい文書事前学習ソリューションであるERNIEを提案する。
まず、直列化段階で入力シーケンスを並べ替え、相関的な事前学習タスクを示し、順序予測を行い、文書の適切な読み順序を学習する。
実験の結果、ERNIEは様々な下流タスクにおいて優れた性能を示し、キー情報に新たな最先端設定、文書質問応答を実現している。
論文 参考訳(メタデータ) (2022-10-12T12:59:24Z) - XDoc: Unified Pre-training for Cross-Format Document Understanding [84.63416346227176]
XDocは、単一のモデルで異なるドキュメントフォーマットを扱う、統合された事前訓練されたモデルである。
XDocは、トレーニング済みの個々のモデルと比較して、さまざまなダウンストリームタスクで同等またはそれ以上のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-06T12:07:18Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。