論文の概要: RTPrune: Reading-Twice Inspired Token Pruning for Efficient DeepSeek-OCR Inference
- arxiv url: http://arxiv.org/abs/2605.00392v1
- Date: Fri, 01 May 2026 04:30:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.843463
- Title: RTPrune: Reading-Twice Inspired Token Pruning for Efficient DeepSeek-OCR Inference
- Title(参考訳): RTPrune: 効率的なDeepSeek-OCR推論のためのリードツースインスパイアされたToken Pruning
- Authors: Ben Wan, Yan Feng, Zihan Tang, Weizhe Huang, Yuting Zeng, Jia Wang, Tongxuan Liu,
- Abstract要約: 本稿では,DeepSeek-OCRに適した2段階のトークンプルーニング手法を提案する。
第1段階では,有能なテキストおよび構造情報をキャプチャするハイノームな視覚トークンを優先する。
第2段階では、残りのトークンは最適輸送理論に基づいてペア化され、マージされ、効率的な特徴集合が達成される。
- 参考スコア(独自算出の注目度): 17.01369106080539
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: DeepSeek-OCR leverages visual-text compression to reduce long-text processing costs and accelerate inference, yet visual tokens remain prone to redundant textual and structural information. Moreover, current token pruning methods for conventional vision-language models (VLMs) fail to preserve textual fidelity due to improper compression mechanisms. By analyzing the decoding process of DeepSeek-OCR, we find that a distinct two-stage reading trajectory: the model initially prioritizes the majority of high-norm tokens, then subsequently redistributes its attention to the remaining ones. Motivated by this insight, we propose RTPrune, a two-stage token pruning method tailored for DeepSeek-OCR. In the first stage, we prioritize high-norm visual tokens that capture salient textual and structural information. In the second stage, the remaining tokens are paired and merged based on optimal transport theory to achieve efficient feature aggregation. We further introduce a dynamic pruning ratio that adapts to token similarity and textual density for OCR tasks, enabling a better efficiency-accuracy trade-off. Extensive experiments demonstrate state-of-the-art performance, as evidenced by 99.47% accuracy and 1.23$\times$ faster prefill on OmniDocBench, achieved with 84.25% token retention when applied to DeepSeek-OCR-Large.
- Abstract(参考訳): DeepSeek-OCRは、ビジュアルテキスト圧縮を活用して、長いテキスト処理コストを削減し、推論を高速化する。
さらに、従来の視覚言語モデル(VLM)の現在のトークンプルーニング手法では、不適切な圧縮機構によるテキストの忠実さの維持が困難である。
DeepSeek-OCRの復号過程を解析することにより、2段階の読み出し軌跡が明らかになる: モデルは最初、ハイノームトークンの大部分を優先し、その後、残りのトークンに注意を向ける。
この知見に触発されて,DeepSeek-OCRに適した2段階のトークンプルーニング手法であるRTPruneを提案する。
第1段階では,有能なテキストおよび構造情報をキャプチャするハイノームな視覚トークンを優先する。
第2段階では、残りのトークンは最適輸送理論に基づいてペア化され、マージされ、効率的な特徴集合が達成される。
さらに、OCRタスクのトークン類似性とテキスト密度に適応する動的プルーニング比を導入し、効率と精度のトレードオフを改善する。
99.47%の精度と1.23$\times$ faster prefill on OmniDocBenchはDeepSeek-OCR-Largeに適用すると84.25%のトークン保持を達成した。
関連論文リスト
- Boosting Document Parsing Efficiency and Performance with Coarse-to-Fine Visual Processing [25.960557727211768]
文書解析は、画像の解像度がパフォーマンスに大きく影響する、きめ細かいタスクである。
冗長な領域を抑えながら意味的に関連のある領域に焦点を絞った,新しい粗大なアーキテクチャであるPaddleOCR-VLを提案する。
ページレベルの解析と要素レベルの認識において,PaddleOCR-VLは最先端の性能を実現する。
論文 参考訳(メタデータ) (2026-03-25T14:08:56Z) - Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity [54.95089105944234]
視覚言語モデル(VLM)は、過剰な視覚トークンの生成によって引き起こされる計算の非効率性に直面する。
2段階パイプラインを特徴とする訓練不要なSynergistic Importance-DiversityアプローチPruneSIDを提案する。
LLaVA-NeXTでは11.1%のトークン保持率で96.3%の精度、極端な圧縮速度(5.6%)で92.8%の精度を実現した。
論文 参考訳(メタデータ) (2026-03-10T10:31:58Z) - Focus-Scan-Refine: From Human Visual Perception to Efficient Visual Token Pruning [78.75062483648243]
視覚言語モデル(VLM)は、しばしば大量の視覚トークンを生成し、推論遅延とメモリフットプリントを大幅に増加させる。
視覚的質問に対して人間がどのように答えるかを模倣する,人間にインスパイアされたプラグアンドプレイプルーニングフレームワークであるFSRを提案する。
FSRは、既存の最先端プルーニング法よりも精度と効率のトレードオフを一貫して改善する。
論文 参考訳(メタデータ) (2026-02-05T16:02:48Z) - Visual Merit or Linguistic Crutch? A Close Look at DeepSeek-OCR [25.00433693229684]
DeepSeek-OCRは、入力された視覚トークンの10倍以上のテキストトークンをデコードすると主張している。
我々は,本モデル固有のOCR能力を言語先行から分離するために,文レベルおよび単語レベルの意味的腐敗を用いる。
従来のパイプラインOCR法は, 従来のパイプラインOCR法に比べて, 意味摂動に対するロバスト性が高いことがわかった。
論文 参考訳(メタデータ) (2026-01-07T09:01:23Z) - ToDRE: Visual Token Pruning via Diversity and Task Awareness for Efficient Large Vision-Language Models [59.47738955960352]
ToDREは、2段階でトレーニング不要なトークン圧縮フレームワークである。
トークンの多様性とトークン-タスク関連性に基づいてトークンをプルーニングすることで、優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-24T15:47:49Z) - Activation-aware Probe-Query: Effective Key-Value Retrieval for Long-Context LLMs Inference [56.71209737306054]
我々は,プローブ-textbfQuery を動的に決定し,関連する textbfKV ペアを推論するために利用する,トレーニングフリーの textbfActivation-aware アプローチである textbfActQKV を提案する。
Long-Bench と $infty$ Benchmarks の実験では、競合する推論品質とリソース効率を備えた最先端のパフォーマンスが実証されている。
論文 参考訳(メタデータ) (2025-02-19T08:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。