論文の概要: Up to 36x Speedup: Mask-based Parallel Inference Paradigm for Key Information Extraction in MLLMs
- arxiv url: http://arxiv.org/abs/2601.19613v1
- Date: Tue, 27 Jan 2026 13:45:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.338169
- Title: Up to 36x Speedup: Mask-based Parallel Inference Paradigm for Key Information Extraction in MLLMs
- Title(参考訳): 最大36倍高速化:MLLMにおける鍵情報抽出のためのマスクベースの並列推論パラダイム
- Authors: Xinzhong Wang, Ya Guo, Jing Li, Huan Chen, Yi Tu, Yijie Hong, Gongshen Liu, Huijia Zhu,
- Abstract要約: 鍵情報抽出のための並列推論パラダイムPIPについて紹介する。
提案手法は,すべての目標値のプレースホルダーとして "[mask]" トークンを用いることで問題を修正し,単一のフォワードパスで同時生成を可能にする。
実験の結果,従来の自己回帰ベースモデルと比較して,PIPモデルでは性能劣化が無視できる5-36倍の高速化を実現していることがわかった。
- 参考スコア(独自算出の注目度): 22.76757502541604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Key Information Extraction (KIE) from visually-rich documents (VrDs) is a critical task, for which recent Large Language Models (LLMs) and Multi-Modal Large Language Models (MLLMs) have demonstrated strong potential. However, their reliance on autoregressive inference, which generates outputs sequentially, creates a significant efficiency bottleneck, especially as KIE tasks often involve extracting multiple, semantically independent fields. To overcome this limitation, we introduce PIP: a Parallel Inference Paradigm for KIE. Our approach reformulates the problem by using "[mask]" tokens as placeholders for all target values, enabling their simultaneous generation in a single forward pass. To facilitate this paradigm, we develop a tailored mask pre-training strategy and construct large-scale supervised datasets. Experimental results show that our PIP-models achieve a 5-36x inference speedup with negligible performance degradation compared to traditional autoregressive base models. By substantially improving efficiency while maintaining high accuracy, PIP paves the way for scalable and practical real-world KIE solutions.
- Abstract(参考訳): 近年のLarge Language Models (LLM) とMulti-Modal Large Language Models (MLLM) が大きな可能性を示している。
しかしながら、アウトプットを逐次生成する自己回帰推論への依存は、特にKIEタスクが複数の意味的に独立したフィールドを抽出することを含むため、大きな効率のボトルネックを生じさせる。
この制限を克服するために、我々はPIP: A Parallel Inference Paradigm for KIEを紹介する。
提案手法は,すべての目標値のプレースホルダーとして "[mask]" トークンを用いることで問題を修正し,単一のフォワードパスで同時生成を可能にする。
このパラダイムを実現するため、我々はマスク事前学習戦略を開発し、大規模な教師付きデータセットを構築する。
実験の結果,従来の自己回帰ベースモデルと比較して,PIPモデルでは性能劣化が無視できる5-36倍の高速化を実現していることがわかった。
高い精度を維持しながら効率を大幅に向上させることで、PIPはスケーラブルで実用的な実世界のKIEソリューションの道を開く。
関連論文リスト
- WeMMU: Enhanced Bridging of Vision-Language Models and Diffusion Models via Noisy Query Tokens [69.97021957331326]
本稿では,VLMと拡散モデル間の分散表現空間をエンドツーエンドの最適化により学習するノイズクエリトークンを提案する。
また、細粒度画像の詳細を復元する線形投影を用いたVAE分岐も導入する。
論文 参考訳(メタデータ) (2025-12-02T09:02:20Z) - Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。
異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。
我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文 参考訳(メタデータ) (2025-08-20T17:59:51Z) - Saliency-driven Dynamic Token Pruning for Large Language Models [32.903622070917194]
塩分駆動型動的トケンプルーニング(SDTP)
軽量なサリエンシ駆動予測モジュールは、各トークンの重要度をその隠れ状態で推定するように設計されている。
ランキングに基づく最適化手法を提案し,評価スコアと予測重要スコアのランキングばらつきを最小化する。
論文 参考訳(メタデータ) (2025-04-06T15:15:07Z) - PRISM: Self-Pruning Intrinsic Selection Method for Training-Free Multimodal Data Selection [68.8373788348678]
ビジュアルインストラクションチューニングは、事前訓練されたマルチモーダル大言語モデルに人間の指示に従うように適応する。
PRISMは、効率的な視覚的命令選択のための最初のトレーニング不要のフレームワークである。
データ選択とモデルチューニングのエンドツーエンドの時間を従来のパイプラインの30%に短縮する。
論文 参考訳(メタデータ) (2025-02-17T18:43:41Z) - FOLDER: Accelerating Multi-modal Large Language Models with Enhanced Performance [9.782362715017596]
視覚トークン列の長さを削減するために設計された,シンプルで効果的なプラグアンドプレイモジュールであるFOLDERを紹介する。
我々は、異なる還元戦略によってもたらされた情報損失を分析し、視覚的冗長性を取り除きながら鍵情報を保存するFOLDERを開発した。
FOLDERは、オリジナルのモデルと同等またはそれ以上のパフォーマンスを達成すると同時に、最大70%のビジュアルトークンを削除することで、複雑さを劇的に低減する。
論文 参考訳(メタデータ) (2025-01-05T03:28:45Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。