論文の概要: FastOCR: Dynamic Visual Fixation via KV Cache Pruning for Efficient Document Parsing
- arxiv url: http://arxiv.org/abs/2605.17447v1
- Date: Sun, 17 May 2026 13:39:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.09233
- Title: FastOCR: Dynamic Visual Fixation via KV Cache Pruning for Efficient Document Parsing
- Title(参考訳): FastOCR: 効率的な文書解析のためのKVキャッシュプルーニングによる動的ビジュアル修正
- Authors: Zihan Tang, Leqi Shen, Hui Chen, Ao Wang, Ben Wan, Yan Feng, Ke Zhang, Sicheng Zhao, Tongxuan Liu, Guiguang Ding,
- Abstract要約: 我々は2つの相補的なモジュールを持つトレーニングフリーフレームワークであるFastOCRを提案する。
FastOCRは未実行モデルの精度の98%を保持し、デコードステップあたりの視覚トークンの5%にしか到達しない。
- 参考スコア(独自算出の注目度): 51.905216364362325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) have shown strong promise on Optical Character Recognition (OCR), yet the sheer number of visual tokens required to encode dense documents incurs prohibitive inference cost. Existing pruning methods rely on physical eviction, e.g., permanently discarding visual tokens during the prefill stage. While effective for natural images, this strategy fundamentally breaks down on OCR, where virtually every visual token may correspond to a character or structural element, and any irreversible loss leads to catastrophic accuracy degradation. We observe that, although document images appear globally dense and seemingly unprunable, the model's attention to them is in fact temporally sparse: at each decoding step it concentrates on a small region that shifts gradually across steps, much as a human reader fixates on successive words rather than perceiving an entire page at once. Motivated by this Dynamic Visual Fixation phenomenon, we recast the intractable global pruning problem as a tractable local, dynamic one and propose FastOCR, a training-free framework with two complementary modules. Specifically, Focal-Guided Pruning identifies a small set of focal layers and selects the most task-relevant visual tokens from them at each step, while Cross-Step Fixation Reuse exploits the gradual shift of fixation to warm-start each step from the previous one. By dynamically adjusting which tokens are attended rather than evicting any from the cache, FastOCR avoids permanent information loss. Extensive experiments show that FastOCR serves as a plug-and-play acceleration module, generalizing consistently across five VLMs of varying sizes and architectures. On Qwen2.5-VL, FastOCR retains 98% of the unpruned model's accuracy while attending to only 5% of the visual tokens per decoding step, reducing attention latency by 3.0$\times$.
- Abstract(参考訳): VLM(Vision-Language Models)は光学文字認識(OCR)に強い期待を抱いているが、高密度文書をエンコードするのに必要となる多くの視覚トークンは、違法な推論コストを引き起こす。
既存のプルーニング法は、例えば、プリフィルの段階で視覚トークンを永久に破棄する物理的排除に依存している。
自然画像に効果があるが、この戦略は基本的にOCRを分解し、事実上全ての視覚トークンが文字や構造要素に対応し、あらゆる不可逆的な損失が破滅的な精度の劣化につながる。
文書画像は広範に密度が高く、表現不能に見えるが、そのモデルに対する注意は実際には時間的に疎い。各デコードステップでは、人間がページ全体を認識するのではなく、連続した単語に固定するのと同じように、ステップを徐々にシフトする小さな領域に集中する。
この動的視覚固定現象に触発され、抽出可能なグローバルプルーニング問題を抽出可能な局所的動的問題として再キャストし、2つの相補的なモジュールを持つトレーニングフリーフレームワークであるFastOCRを提案する。
具体的には、Focal-Guided Pruningは、小さなフォーカス層を特定し、各ステップで最もタスク関連のある視覚トークンを選択し、Cross-Step Fixation Reuseは、修正の段階的なシフトを利用して、前のステップから各ステップをウォームスタートする。
キャッシュから排除するのではなく、どのトークンが出席しているかを動的に調整することで、FastOCRは恒久的な情報損失を避けることができる。
大規模な実験により、FastOCRはプラグ・アンド・プレイ・アクセラレーションモジュールとして機能し、様々なサイズとアーキテクチャの5つのVLMを一貫して一般化している。
Qwen2.5-VLでは、FastOCRは未実行モデルの精度の98%を維持し、デコードステップあたりの視覚トークンの5%にしか到達せず、注意遅延を3.0$\times$に削減している。
関連論文リスト
- CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization [122.88484422855934]
本稿では,MeanFlowデコーダを備えた1次元因果画像トークンであるCaTokを紹介する。
時間間隔でトークンを選択することで、CaTokは高速なワンステップ生成と高忠実なマルチステップサンプリングの両方をサポートする因果1D表現を学ぶ。
実験により、CaTokはImageNet再構成の最先端の結果を達成し、0.75 FID、22.53 PSNR、0.674 SSIMに達した。
論文 参考訳(メタデータ) (2026-03-06T16:39:17Z) - SimpleOCR: Rendering Visualized Questions to Teach MLLMs to Read [43.28273039987167]
テキストクエリを画像に直接描画するVisualized-Question (VQ) 設定を導入する。
強力なOCR能力を持つにもかかわらず、モデルはVQ設定で最大12.7%の性能低下に悩まされる。
学習プロセスに構造的制約を課すプラグアンドプレイトレーニング戦略であるSimpleOCRを提案する。
論文 参考訳(メタデータ) (2026-02-25T21:36:30Z) - DODO: Discrete OCR Diffusion Models [15.352694377412229]
離散拡散ブロックを利用した最初の VLM であるDODO を導入し,OCR の高速化の可能性を明らかにする。
提案手法は, 自己回帰ベースラインに比べて最大3倍高速な推論を実現するとともに, 最先端の精度を実現する。
論文 参考訳(メタデータ) (2026-02-18T20:59:22Z) - ResTok: Learning Hierarchical Residuals in 1D Visual Tokenizers for Autoregressive Image Generation [64.84095852784714]
Residual Tokenizer (ResTok)は、画像トークンと潜在トークンの両方の階層的残基を構築する1Dビジュアルトークンライザである。
視覚的トークン化における階層的残差の復元はAR画像生成を著しく改善し,ImageNet-256ではわずか9ステップで2.34gFIDを達成した。
論文 参考訳(メタデータ) (2026-01-07T14:09:18Z) - VScan: Rethinking Visual Token Reduction for Efficient Large Vision-Language Models [57.2662376527586]
VScanは2段階のビジュアルトークン削減フレームワークである。
1)グローバルスキャンとローカルスキャンを視覚的エンコーディング中にマージすることで,(2)言語モデルの中間層にプルーニングを導入する。
VScanはプリフィルの2.91$times$スピードアップとFLOPの10$times$ダウンを実現し、オリジナルのパフォーマンスの95.4%を維持した。
論文 参考訳(メタデータ) (2025-05-28T17:59:08Z) - ToDRE: Visual Token Pruning via Diversity and Task Awareness for Efficient Large Vision-Language Models [59.47738955960352]
ToDREは、2段階でトレーニング不要なトークン圧縮フレームワークである。
トークンの多様性とトークン-タスク関連性に基づいてトークンをプルーニングすることで、優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-24T15:47:49Z) - MARché: Fast Masked Autoregressive Image Generation with Cache-Aware Attention [10.077033449956806]
Masked Autoregressive (MAR) モデルは、画像生成のために双方向の注意を用いてトークンを一定の順序で予測することで、マスク付きおよび自己回帰生成の強度を統一する。
有効ではあるが、MARモデルは、すべての復号ステップにおいて、すべてのトークンに対する注意とフィードフォワード表現を再計算するので、計算上のオーバーヘッドに悩まされる。
本稿では、キャッシュ認識と選択KVリフレッシュという2つの重要なコンポーネントを通じて、この非効率に対処するためのトレーニング不要な生成フレームワーク MARch'e を提案する。
論文 参考訳(メタデータ) (2025-05-22T23:26:56Z) - DyCoke: Dynamic Compression of Tokens for Fast Video Large Language Models [28.379533608574814]
トークン表現の最適化とビデオ大言語モデルの高速化を目的とした,トレーニング不要なトークン圧縮手法であるDyCokeを提案する。
DyCokeは、フレーム間で冗長トークンをマージすることによって、時間的冗長性を最小化するために、プラグインとプレイの時間的圧縮モジュールを組み込んでいる。
各デコードステップでクリティカルトークンを動的に保持することで、高品質な推論を保証する。
論文 参考訳(メタデータ) (2024-11-22T15:55:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。