論文の概要: OccamToken: Efficient VLM Inference with Training-Free and Budget-Adaptive Token Pruning
- arxiv url: http://arxiv.org/abs/2605.29657v1
- Date: Thu, 28 May 2026 09:20:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.129115
- Title: OccamToken: Efficient VLM Inference with Training-Free and Budget-Adaptive Token Pruning
- Title(参考訳): OccamToken: トレーニングフリーかつ予算適応型トーケンプルーニングによる効率的なVLM推論
- Authors: Geng Li, Guohao Chen, Ting Chen, Shilin Shan, Kuangji Zuo, Bofan Lyu, Tuo An, Gen Li, Jianfei Yang,
- Abstract要約: OccamTokenは、絶対トークンランキングを登録された相対的エビデンステストに置き換える、トレーニング不要のフレームワークである。
我々はOccamTokenが、追加のトレーニングなしで精度と効率のトレードオフを継続的に改善していることを示します。
- 参考スコア(独自算出の注目度): 24.164883144694656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) rely on long visual token sequences for visual understanding, making the prefill stage expensive in both computation and memory. Most existing pruning methods follow an absolute-ranking paradigm, assigning importance scores to visual tokens and retaining a fixed top-K subset. In this work, we argue that this paradigm is fundamentally brittle: attention sinks distort token importance rankings, while image redundancy and query-dependent visual evidence make fixed token budgets unreliable across inputs. We propose OccamToken, a training-free framework that replaces absolute token ranking with register-anchored relative evidence testing. Instead of asking which tokens are globally important, OccamToken evaluates whether a visual token provides information beyond a register-based reference. Our key insight is that register tokens naturally absorb low-information attention patterns, making them a stable reference for identifying genuinely informative visual evidence. Based on this principle, OccamToken performs both image-adaptive redundancy pruning and query-adaptive relevance pruning through dynamic thresholds derived from register attention. Across LLaVA-NeXT, LLaVA-v1.5, and Qwen3-VL, OccamToken consistently improves the accuracy-efficiency trade-off without additional training. Notably, on LLaVA-NeXT, it reduces 2,880 visual tokens to approximately 40 while preserving over 93% of the original accuracy, enabling stable visual token compression even in the extreme 1.4% retention regime.
- Abstract(参考訳): 視覚言語モデル(VLM)は、視覚的理解のために長い視覚トークンシーケンスに依存しており、計算とメモリの両方においてプリフィルステージは高価である。
既存のプルーニング手法の多くは絶対的なパラダイムに従っており、重要なスコアを視覚トークンに割り当て、固定されたトップKサブセットを保持する。
注意は歪んだトークンの重要度を低下させ、画像の冗長性とクエリ依存の視覚的証拠は、入力間で固定トークンの予算を信頼できないものにする。
OccamTokenは、絶対トークンランキングを登録された相対的エビデンステストに置き換える、トレーニング不要のフレームワークである。
OccamToken氏は、どのトークンがグローバルに重要であるかを尋ねる代わりに、ビジュアルトークンがレジスタベースの参照を超えて情報を提供するかどうかを評価する。
我々の重要な洞察は、レジスタトークンが自然に低情報注意パターンを吸収し、真に情報的な視覚的証拠を特定するための安定した基準となることである。
この原理に基づき、OccamTokenは画像適応冗長プルーニングとクエリ適応関連プルーニングの両方をレジスタアテンションから派生した動的しきい値でプルーニングする。
LLaVA-NeXT、LLaVA-v1.5、Qwen3-VLの他、OccamTokenは追加トレーニングなしで精度と効率のトレードオフを一貫して改善している。
特にLLaVA-NeXTでは、2,880個の視覚トークンを約40に削減し、元の精度の93%以上を保持し、極端な1.4%の保持状態でも安定した視覚トークン圧縮を可能にする。
関連論文リスト
- LearnPruner: Rethinking Attention-based Token Pruning in Vision Language Models [8.039490357019801]
VLM(Vision-Language Models)は近年,視覚的理解と推論において顕著な能力を示した。
また、長い視覚的シーケンス入力による計算負荷も大きい。
近年の研究では、重要でない視覚トークンを抽出し、計算量を大幅に削減することでこの問題に対処している。
論文 参考訳(メタデータ) (2026-04-27T01:56:59Z) - Focus-Scan-Refine: From Human Visual Perception to Efficient Visual Token Pruning [78.75062483648243]
視覚言語モデル(VLM)は、しばしば大量の視覚トークンを生成し、推論遅延とメモリフットプリントを大幅に増加させる。
視覚的質問に対して人間がどのように答えるかを模倣する,人間にインスパイアされたプラグアンドプレイプルーニングフレームワークであるFSRを提案する。
FSRは、既存の最先端プルーニング法よりも精度と効率のトレードオフを一貫して改善する。
論文 参考訳(メタデータ) (2026-02-05T16:02:48Z) - All You Need Are Random Visual Tokens? Demystifying Token Pruning in VLLMs [43.80391827200227]
ディープレイヤでは、既存のトレーニングフリープルーニング手法はランダムプルーニングに勝る。
ビジュアルトークンは、ネットワーク深度の増加に伴い、徐々にサリエンスを失う。
深層層での単純なランダムプルーニングは性能と効率のバランスを効果的に表す。
論文 参考訳(メタデータ) (2025-12-08T14:16:01Z) - ZSPAPrune: Zero-Shot Prompt-Aware Token Pruning for Vision-Language Models [7.7352936204066]
本稿では,タスク関連性と情報多様性のバランスとして,視覚トークンプルーニングをモデル化する新しいゼロショット手法を提案する。
本手法は,精度の低下を最小限に抑えて,最先端技術に適合または超越した性能を実現する。
これらのゲインには、GPUメモリフットプリントの大幅な削減と推論レイテンシが伴っている。
論文 参考訳(メタデータ) (2025-10-20T06:18:47Z) - ToDRE: Visual Token Pruning via Diversity and Task Awareness for Efficient Large Vision-Language Models [59.47738955960352]
ToDREは、2段階でトレーニング不要なトークン圧縮フレームワークである。
トークンの多様性とトークン-タスク関連性に基づいてトークンをプルーニングすることで、優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-24T15:47:49Z) - TopV: Compatible Token Pruning with Inference Time Optimization for Fast and Low-Memory Multimodal Vision Language Model [56.43860351559185]
高速かつ低メモリの textbfVLM に対する推論時間最適化を備えた textbfToken textbfPruning の互換性である textbfTopV を導入する。
我々のフレームワークは、各ソースの視覚的トークンの重要性を測定するために、視覚的なコスト関数を組み込んでおり、低重要トークンの効果的なプルーニングを可能にしている。
論文 参考訳(メタデータ) (2025-03-24T01:47:26Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - Adaptive Sparse ViT: Towards Learnable Adaptive Token Pruning by Fully
Exploiting Self-Attention [36.90363317158731]
最小限のコストで適応的なスパーストークンプルーニングフレームワークを提案する。
提案手法では,DeiT-Sのスループットを50%向上し,トップ1の精度は0.2%低下した。
論文 参考訳(メタデータ) (2022-09-28T03:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。