論文の概要: Efficient Document Parsing via Parallel Token Prediction
- arxiv url: http://arxiv.org/abs/2603.15206v1
- Date: Mon, 16 Mar 2026 12:45:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.283762
- Title: Efficient Document Parsing via Parallel Token Prediction
- Title(参考訳): 並列トークン予測による効率的な文書解析
- Authors: Lei Li, Ze Zhao, Meng Li, Zhongwang Lun, Yi Yuan, Xingjing Lu, Zheng Wei, Jiang Bian, Zang Li,
- Abstract要約: 基本的かつ重要なビジョンタスクとしての文書解析は、視覚言語モデル(VLM)によって革新されている
本稿では,VLMが複数の将来トークンを並列に生成し,サンプル効率を向上する,プラグブルでモデルに依存しない,かつ簡便な手法であるParallel-Token Prediction (PTP)を提案する。
OmniDocBench と olmOCR-bench の実験により,本手法は復号速度 (1.6x-2.2x) を著しく向上するだけでなく,モデル幻覚を低減し,強力な一般化能力を示すことが示された。
- 参考スコア(独自算出の注目度): 22.587921005938625
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Document parsing, as a fundamental yet crucial vision task, is being revolutionized by vision-language models (VLMs). However, the autoregressive (AR) decoding inherent to VLMs creates a significant bottleneck, severely limiting parsing speed. In this paper, we propose Parallel-Token Prediction (PTP), a plugable, model-agnostic and simple-yet-effective method that enables VLMs to generate multiple future tokens in parallel with improved sample efficiency. Specifically, we insert some learnable tokens into the input sequence and design corresponding training objectives to equip the model with parallel decoding capabilities for document parsing. Furthermore, to support effective training, we develop a comprehensive data generation pipeline that efficiently produces large-scale, high-quality document parsing training data for VLMs. Extensive experiments on OmniDocBench and olmOCR-bench demonstrate that our method not only significantly improves decoding speed (1.6x-2.2x) but also reduces model hallucinations and exhibits strong generalization abilities.
- Abstract(参考訳): 基本的かつ重要なビジョンタスクとしての文書解析は、視覚言語モデル(VLM)によって革新されている。
しかしながら、VLM固有の自己回帰(AR)デコーディングは、解析速度を著しく制限する重大なボトルネックを引き起こす。
本稿では,VLMが複数の将来トークンを並列に生成し,サンプル効率を向上する,プラグブルでモデルに依存しない,かつ簡便な手法であるParallel-Token Prediction (PTP)を提案する。
具体的には、入力シーケンスにいくつかの学習可能なトークンを挿入し、それに対応する訓練目標を設計し、文書解析のための並列復号機能を備えたモデルに装備する。
さらに,効率的な学習を支援するために,VLMのトレーニングデータに対する大規模かつ高品質な文書解析を効率的に行う包括的データ生成パイプラインを開発した。
OmniDocBench と olmOCR-bench の大規模な実験により,本手法は復号速度 (1.6x-2.2x) を著しく向上するだけでなく,モデル幻覚を低減し,強力な一般化能力を示すことが示された。
関連論文リスト
- Training-Free Acceleration for Document Parsing Vision-Language Model with Hierarchical Speculative Decoding [102.88996030431662]
本稿では,文書解析タスクの学習自由かつ高効率な高速化手法を提案する。
投機的復号化にインスパイアされた私たちは、将来のトークンのバッチを予測するために、ドラフトモデルとして軽量な文書解析パイプラインを使用します。
汎用OmniDocBenchに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2026-02-13T14:22:10Z) - TABED: Test-Time Adaptive Ensemble Drafting for Robust Speculative Decoding in LVLMs [14.030784220154151]
本研究では,大規模視覚言語モデルに対するTABED(Test-time Adaptive Batched Ensemble Drafting)を提案する。
TABEDは、SD設定で利用可能な過去の真実からの逸脱を利用して、バッチ推論によって得られた複数のドラフトをアンサンブルする。
自動回帰復号法よりも1.74倍のロバストなウォールタイム・スピードアップを実現し、単一起草法よりも5%改善した。
論文 参考訳(メタデータ) (2026-01-28T08:16:57Z) - SparseVILA: Decoupling Visual Sparsity for Efficient VLM Inference [49.84148668264725]
SparseVILAは効率的なVLM推論のための新しいパラダイムであり、前処理と復号の段階で視覚空間を疎結合する。
AWQ最適化推論パイプライン上に構築されたSparseVILAは、プリフィルの最大4.0倍、デコーディングの2.5倍、長文ビデオタスクの2.6倍のエンドツーエンド高速化を実現している。
論文 参考訳(メタデータ) (2025-10-20T17:35:47Z) - Learning to Parallel: Accelerating Diffusion Large Language Models via Learnable Parallel Decoding [21.609237262034636]
大規模言語モデル(LLM)における自己回帰復号には、$n$トークンに対して$mathcalO(n)$シーケンシャルステップが必要である。
本稿では,並列デコード学習(Learn2PD)を提案する。これは軽量かつ適応的なフィルタモデルをトレーニングし,各トークン位置に対して,現在の予測が最終出力と一致するかどうかを予測するフレームワークである。
この学習されたフィルタは、正しく予測された場合にのみトークンをアンマスクするオラクル並列復号法を近似する。
論文 参考訳(メタデータ) (2025-09-29T17:59:54Z) - READER: Retrieval-Assisted Drafter for Efficient LLM Inference [0.0386965802948046]
自己回帰言語モデルはトークンシーケンスよりも分解された確率をインスタンス化するが、その厳密なシーケンシャルなデコーディングプロセスは、遅延推論に固有の低いバウンドを課す。
このボトルネックは、大規模生成モデルのスケーラブルなデプロイにおける中心的な障害として現れています。
本稿では,補助的ドラフトモデルのトレーニングを回避した投機的復号化フレームワークREADERを提案する。
論文 参考訳(メタデータ) (2025-08-12T16:47:48Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [60.407727995313074]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - ParallelSpec: Parallel Drafter for Efficient Speculative Decoding [62.68430939686566]
提案するParallelSpecは,最先端の投機的復号化手法における自己回帰的起草戦略の代替となる。
投機段階における自己回帰的起草とは対照的に,効率的な投機モデルとして機能する並列投機を訓練する。
論文 参考訳(メタデータ) (2024-10-08T01:05:08Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。