論文の概要: Rényi Entropy: A New Token Pruning Metric for Vision Transformers
- arxiv url: http://arxiv.org/abs/2603.27900v1
- Date: Sun, 29 Mar 2026 23:01:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.166683
- Title: Rényi Entropy: A New Token Pruning Metric for Vision Transformers
- Title(参考訳): Rényi Entropy: ビジョントランスフォーマーのための新しいトーケンプルーニングメトリック
- Authors: Wei-Yuan Su, Ruijie Zhang, Zheng Zhang,
- Abstract要約: セマンティック表現がまだ未成熟な初期層では[]トークンは信頼できないと我々は主張する。
我々は,レニイエントロピーから派生した,トレーニング不要なトークン重要度指標であるCol-Lnを提案する。
我々のアプローチは、様々なベンチマークで最先端のプルーニング手法より一貫して優れています。
- 参考スコア(独自算出の注目度): 7.739339395706548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViTs) achieve state-of-the-art performance but suffer from the $O(N^2)$ complexity of self-attention, making inference costly for high-resolution inputs. To address this bottleneck, token pruning has emerged as a critical technique to accelerate inference. Most existing methods rely on the [CLS] token to estimate patch importance. However, we argue that the [CLS] token can be unreliable in early layers where semantic representations are still immature. As a result, pruning in the early layer often leads to inaccurate importance estimation and unnecessary information loss. In this work, we propose a training-free token importance metric, namely Col-Ln, which is derived from Rényi entropy that enables the identification of informative tokens from the first layer of the network, thereby enabling more reliable pruning in token reduction. Extensive experiments on ViTs and Large Vision-Language Models (LVLMs) demonstrate that our approach consistently outperforms state-of-the-art pruning methods across diverse benchmarks.
- Abstract(参考訳): 視覚変換器(ViT)は最先端の性能を実現するが、O(N^2)$の自己アテンションの複雑さに悩まされ、高精細な入力には推論がコストがかかる。
このボトルネックに対処するため、トークンプルーニングは推論を加速する重要なテクニックとして登場した。
既存のほとんどのメソッドはパッチの重要性を見積もるために[CLS]トークンに依存しています。
しかし、セマンティック表現がまだ未成熟な初期層では、[CLS]トークンは信頼できないと論じる。
結果として、初期層でのプルーニングは、しばしば不正確な重要度推定と不要な情報損失につながる。
本研究では,ネットワークの第1層から情報化トークンを識別し,より信頼性の高いトークン削減を実現するための,トレーニング不要なトークン重要度指標であるCol-Lnを提案する。
ViTとLVLM(Large Vision-Language Models)に関する大規模な実験は、我々のアプローチが様々なベンチマークで最先端のプルーニング手法より一貫して優れていることを示した。
関連論文リスト
- TP-Spikformer: Token Pruned Spiking Transformer [48.49025085338628]
スパイキングニューラルネットワーク(SNN)は、イベント駆動コンピューティングパラダイムのため、従来のニューラルネットワークに代わるエネルギー効率の高い代替手段を提供する。
本稿では,TP-Spikformer と呼ばれる変圧器をスパイクする簡易かつ効果的なトークンプレーニング手法を提案する。
論文 参考訳(メタデータ) (2026-02-28T07:53:26Z) - SwiftVLM: Efficient Vision-Language Model Inference via Cross-Layer Token Bypass [20.7003663809766]
視覚トークンプルーニングは、視覚言語モデルの計算コストを削減するための有望なアプローチである。
我々は、選択されていない視覚トークンを保存し、その後のプルーニングステージに転送する、バイパスと呼ばれる新しいプルーニングパラダイムを導入する。
このパラダイムに基づいて,強力な視覚トークン選択機能を備えたモデル固有の層でプルーニングを行う,単純かつトレーニング不要なSwiftVLMを提案する。
論文 参考訳(メタデータ) (2026-02-03T05:42:51Z) - Behavior-Equivalent Token: Single-Token Replacement for Long Prompts in LLMs [55.827877498548965]
単一プロンプト固有の振る舞い等価トークン([BE])を学習する軽量なトレーニングフレームワークを提案する。
フレームワークはまず[BE]に、元のシステムプロンプトの自然言語内容を再構成してエンコードし、その後、プロンプトの下流の振る舞いをこの単一のトークンに蒸留するように訓練する。
3つのデータセットに対する実証的な評価は、1つの[BE]トークンが3000倍の高速化を実現し、元のシステムの下流性能の約98%を維持していることを示している。
論文 参考訳(メタデータ) (2025-11-28T15:22:52Z) - Neutralizing Token Aggregation via Information Augmentation for Efficient Test-Time Adaptation [59.1067331268383]
TTA(Test-Time Adaptation)は、視覚変換器(ViT)を追加のトレーニングデータなしで分散シフトに適応するための有効なソリューションとして登場した。
推論コストを削減するために、プラグイン・アンド・プレイのトークン・アグリゲーション手法はViTに冗長なトークンをマージし、全処理されたトークンを減らす。
我々はこの問題をETTA(Efficient Test-Time Adaptation)として定式化し、推論遅延を低減しつつTTAの適応性を維持する。
論文 参考訳(メタデータ) (2025-08-05T12:40:55Z) - TopV: Compatible Token Pruning with Inference Time Optimization for Fast and Low-Memory Multimodal Vision Language Model [56.43860351559185]
高速かつ低メモリの textbfVLM に対する推論時間最適化を備えた textbfToken textbfPruning の互換性である textbfTopV を導入する。
我々のフレームワークは、各ソースの視覚的トークンの重要性を測定するために、視覚的なコスト関数を組み込んでおり、低重要トークンの効果的なプルーニングを可能にしている。
論文 参考訳(メタデータ) (2025-03-24T01:47:26Z) - Multi-Scale And Token Mergence: Make Your ViT More Efficient [3.087140219508349]
Vision Transformer (ViT) はコンピュータビジョン領域において一般的なモデルとして登場した。
より重要なトークンとマージすることで,非機密トークンからの情報を保持できる新しいトークンプルーニング手法を提案する。
提案手法は,DeiT-Sの精度は0.1%しか低下せず,計算コストの33%の大幅な削減を実現している。
論文 参考訳(メタデータ) (2023-06-08T02:58:15Z) - Adaptive Sparse ViT: Towards Learnable Adaptive Token Pruning by Fully
Exploiting Self-Attention [36.90363317158731]
最小限のコストで適応的なスパーストークンプルーニングフレームワークを提案する。
提案手法では,DeiT-Sのスループットを50%向上し,トップ1の精度は0.2%低下した。
論文 参考訳(メタデータ) (2022-09-28T03:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。