論文の概要: DocPrune:Efficient Document Question Answering via Background, Question, and Comprehension-aware Token Pruning
- arxiv url: http://arxiv.org/abs/2604.22281v1
- Date: Fri, 24 Apr 2026 06:51:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.370501
- Title: DocPrune:Efficient Document Question Answering via Background, Question, and Comprehension-aware Token Pruning
- Title(参考訳): DocPrune:背景, 質問, 包括的知識による効果的な文書質問回答
- Authors: Joonmyung Choi, Sanghyeok Lee, Jongha Kim, Sehyung Kim, Dohwan Ko, Jihyung Kil, Hyunwoo J. Kim,
- Abstract要約: トレーニングフリーでプログレッシブな文書トークン解析フレームワークであるDocPruneを提案する。
M3DocRAGの実験により,DocPruneはエンコーダとデコーダのスループットを3.0倍,デコーダの3.3倍向上した。
- 参考スコア(独自算出の注目度): 41.26256203983725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in vision-language models have demonstrated remarkable performance across diverse multi-modal tasks, including document question answering that leverages structured visual cues from text, tables, and figures. However, unlike natural images, document images contain large backgrounds and only sparse supporting evidence, leading to the inefficient consumption of substantial computational resources, especially for long documents. We observe that existing token-reduction methods for natural images and videos fall short in utilizing the structural sparsity unique to documents. To address this, we propose DocPrune, a training-free and progressive document token pruning framework designed for efficient long-document understanding. The proposed method preserves only the essential tokens for the task while removing unnecessary ones, such as background or question-irrelevant tokens. Moreover, it automatically selects the appropriate layers to initiate token pruning based on the model's level of comprehension. Our experiments on the M3DocRAG show that DocPrune improves throughput by 3.0x and 3.3x in the encoder and decoder, respectively, while boosting the F1 score by +1.0, achieving both higher accuracy and efficiency without any additional training.
- Abstract(参考訳): 視覚言語モデルの最近の進歩は、テキスト、表、図形から構造化された視覚的手がかりを利用する文書質問応答など、多様なマルチモーダルタスクにまたがる顕著なパフォーマンスを示している。
しかし、自然画像とは異なり、文書画像には大きな背景があり、証拠が不足しているだけであり、特に長い文書の場合、かなりの計算資源の非効率消費につながる。
自然画像やビデオに対する既存のトークン還元手法は,文書特有の構造的空間性を利用するには不十分である。
そこで我々はDocPruneを提案する。DocPruneは、長期文書の効率的な理解のために設計された訓練不要でプログレッシブな文書トークン解析フレームワークである。
提案手法は,タスクに必要なトークンのみを保存し,バックグラウンドや質問非関連トークンなどの不要トークンを除去する。
さらに、モデルの理解レベルに基づいてトークンプルーニングを開始するための適切なレイヤを自動的に選択する。
M3DocRAG を用いた実験により,DocPrune はエンコーダとデコーダのスループットを 3.0x と 3.3x 向上し,F1 のスコアを +1.0 に向上させ,さらなるトレーニングを行わずに高い精度と効率を達成することができた。
関連論文リスト
- VDInstruct: Zero-Shot Key Information Extraction via Content-Aware Vision Tokenization [7.769156392417315]
鍵情報抽出は、視覚文書の理解の基盤となる。
既存のマルチモーダルな大言語モデル (MLLM) は、高密度な文書ではよく機能しない。
本稿では,空間領域検出と意味的特徴抽出を分離するMLLMであるVDInstructを紹介する。
論文 参考訳(メタデータ) (2025-07-13T08:15:11Z) - mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding [103.05835688963947]
本稿では,高解像度文書画像を324個のトークンに圧縮する高解像度DocCompressorモジュールを提案する。
DocOwl2は、マルチページ文書理解ベンチマークにまたがる最先端の新たなベンチマークを設定し、最初のトークンレイテンシを50%以上削減する。
同様のデータで訓練されたシングルイメージMLLMと比較して、DocOwl2はビジュアルトークンの20%未満で、同等のシングルページ理解性能を実現しています。
論文 参考訳(メタデータ) (2024-09-05T11:09:00Z) - Visually Guided Generative Text-Layout Pre-training for Document Intelligence [51.09853181377696]
視覚誘導型生成テキスト事前学習(ViTLP)を提案する。
文書画像が与えられた場合、モデルは階層言語とレイアウトモデリングの目的を最適化し、インターリーブされたテキストとレイアウトシーケンスを生成する。
ViTLPは、文書画像のテキストをローカライズし、認識するためのネイティブなOCRモデルとして機能する。
論文 参考訳(メタデータ) (2024-03-25T08:00:43Z) - Information Extraction from Documents: Question Answering vs Token
Classification in real-world setups [0.0]
質問応答法と古典的トークン分類法を比較して,文書鍵情報抽出を行う。
我々の研究は、クリーンで比較的短いエンティティを扱う場合、トークン分類に基づくアプローチを用いるのが最善であることを示した。
論文 参考訳(メタデータ) (2023-04-21T14:43:42Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。