論文の概要: Training-Free Acceleration for Document Parsing Vision-Language Model with Hierarchical Speculative Decoding
- arxiv url: http://arxiv.org/abs/2602.12957v1
- Date: Fri, 13 Feb 2026 14:22:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.978681
- Title: Training-Free Acceleration for Document Parsing Vision-Language Model with Hierarchical Speculative Decoding
- Title(参考訳): 階層的投機的復号化を用いた文書解析言語モデルの学習自由化
- Authors: Wenhui Liao, Hongliang Li, Pengyu Xie, Xinyu Cai, Yufan Shen, Yi Xin, Qi Qin, Shenglong Ye, Tianbin Li, Ming Hu, Junjun He, Yihao Liu, Wenhai Wang, Min Dou, Bin Fu, Botian Shi, Yu Qiao, Lianwen Jin,
- Abstract要約: 本稿では,文書解析タスクの学習自由かつ高効率な高速化手法を提案する。
投機的復号化にインスパイアされた私たちは、将来のトークンのバッチを予測するために、ドラフトモデルとして軽量な文書解析パイプラインを使用します。
汎用OmniDocBenchに対するアプローチの有効性を示す。
- 参考スコア(独自算出の注目度): 102.88996030431662
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Document parsing is a fundamental task in multimodal understanding, supporting a wide range of downstream applications such as information extraction and intelligent document analysis. Benefiting from strong semantic modeling and robust generalization, VLM-based end-to-end approaches have emerged as the mainstream paradigm in recent years. However, these models often suffer from substantial inference latency, as they must auto-regressively generate long token sequences when processing long-form documents. In this work, motivated by the extremely long outputs and complex layout structures commonly found in document parsing, we propose a training-free and highly efficient acceleration method. Inspired by speculative decoding, we employ a lightweight document parsing pipeline as a draft model to predict batches of future tokens, while the more accurate VLM verifies these draft predictions in parallel. Moreover, we further exploit the layout-structured nature of documents by partitioning each page into independent regions, enabling parallel decoding of each region using the same draft-verify strategy. The final predictions are then assembled according to the natural reading order. Experimental results demonstrate the effectiveness of our approach: on the general-purpose OmniDocBench, our method provides a 2.42x lossless acceleration for the dots.ocr model, and achieves up to 4.89x acceleration on long-document parsing tasks. We will release our code to facilitate reproducibility and future research.
- Abstract(参考訳): 文書解析はマルチモーダル理解における基本的な課題であり、情報抽出やインテリジェント文書解析といった幅広い下流アプリケーションをサポートする。
強力なセマンティックモデリングと堅牢な一般化により、VLMベースのエンドツーエンドアプローチが近年主流パラダイムとして現れている。
しかしながら、これらのモデルは、長い形式のドキュメントを処理する際に、自動回帰的に長いトークンシーケンスを生成する必要があるため、かなりの推論遅延に悩まされることが多い。
本研究は,文書解析における極端に長い出力と複雑なレイアウト構造を動機として,学習不要で高効率な加速法を提案する。
投機的復号化にインスパイアされた我々は、将来のトークンのバッチを予測するために、軽量な文書解析パイプラインをドラフトモデルとして使用し、より正確なVLMはこれらのドラフト予測を並列に検証する。
さらに、各ページを独立した領域に分割し、同じドラフト検証戦略を用いて各領域の並列デコードを可能にすることにより、文書のレイアウト構造の性質をさらに活用する。
最終的な予測は、自然読影順序に従って組み立てられる。
汎用OmniDocBenchでは,dots.ocrモデルに対して2.42倍のロスレス加速を実現し,長期文書解析タスクにおいて最大4.89倍の高速化を実現している。
再現性と今後の研究を促進するために、コードを公開します。
関連論文リスト
- Youtu-Parsing: Perception, Structuring and Recognition via High-Parallelism Decoding [35.429403152845836]
Youtu-Parsingは、高性能コンテンツ抽出のために設計された、効率的で汎用的な文書解析モデルである。
このモデルは稀な文字、多言語テキスト、手書きコンテンツを扱う際に強い堅牢性を示す。
Youtu-ParsingはOmniDocBenchおよびolmOCR-benchベンチマーク上での最先端(SOTA)パフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-28T09:37:13Z) - Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding [49.26132236798123]
視覚言語モデル(VLM)は、文書理解における主要なアプローチになりつつある。
本稿では,粗いプロセスにおいて,検索者と4つの協調エージェントを編成するマルチエージェントフレームワークSLEUTHを提案する。
このフレームワークは、検索したページ内の重要なテキストおよび視覚的手がかりを特定し、テーブルやチャートなどの健全な視覚的エビデンスをフィルタし、クエリを分析して推論戦略を考案する。
論文 参考訳(メタデータ) (2025-11-28T03:09:40Z) - DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding [66.40658898418316]
DiffuSpecは、事前訓練された拡散言語モデル(DLM)を用いて、単一のフォワードパスでマルチトークンのドラフトを生成する、トレーニングフリーのドロップインフレームワークである。
ベンチマーク全体を通じて、DiffuSpecは最大3倍のウォールクロックスピードアップを達成し、投機的復号化のための自己回帰型ドラフトラの堅牢な代替手段として拡散ベースのドラフトを確立する。
論文 参考訳(メタデータ) (2025-09-28T07:00:15Z) - Infinity Parser: Layout Aware Reinforcement Learning for Scanned Document Parsing [46.14775667559124]
layoutRLは、レイアウトを明示的に認識するようにモデルをトレーニングするエンドツーエンドの強化学習フレームワークである。
堅牢なドキュメント理解の進歩を加速するために、コードとデータセットを公開します。
論文 参考訳(メタデータ) (2025-06-01T15:19:52Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。