論文の概要: AdaMerge: Salience-Aware Adaptive Token Merging for Training-Free Acceleration of Vision Transformers
- arxiv url: http://arxiv.org/abs/2605.27465v1
- Date: Tue, 26 May 2026 05:35:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.298448
- Title: AdaMerge: Salience-Aware Adaptive Token Merging for Training-Free Acceleration of Vision Transformers
- Title(参考訳): AdaMerge: 視覚変換器のトレーニング不要高速化のためのサリエンス対応トケマージ
- Authors: Semi Lee, Hyejin Go, Hyesong Choi,
- Abstract要約: AdaMergeは2つの補完メカニズムに基づいたトークンマージフレームワークである。
ToMe、PiToMe、DSMよりずっと優れています。
- 参考スコア(独自算出の注目度): 5.739405014622565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quadratic cost of self-attention in Vision Transformers (ViTs) constitutes a fundamental bottleneck for practical deployment, motivating a vibrant line of research on token reduction. Among existing approaches, token merging (ToMe) has emerged as an elegant training-free solution; yet its design rests on an unspoken premise of token equality, which contravenes the well-documented non-uniformity of self-attention and leads to information loss in high-salience tokens under aggressive compression. We address this limitation with AdaMerge, a token-merging framework based on two complementary mechanisms. First, salience-weighted similarity leverages column-wise feature-affinity centrality as a token-importance proxy and incorporates the resulting salience scores into the bipartite matching score, ensuring that pivotal tokens contribute more strongly to the merged representation. Second, adaptive merging intensity uses pre-computed layer-wise similarity statistics to dynamically modulate the per-layer reduction count in accordance with input-specific redundancy. On ImageNet-1k with ViT-B/16, AdaMerge consistently outperforms ToMe, PiToMe, and DSM across all FLOPs-matched regimes. The accuracy gap widens monotonically with compression: at the 13.4G FLOPs operating point, AdaMerge sustains a Top-1 degradation of only -1.06%, compared to -1.45% for PiToMe and -4.62% for DSM. To our knowledge, AdaMerge is the first to combine salience-weighted similarity and adaptive per-layer reduction into a single training-free token merging framework, advancing the accuracy-FLOPs Pareto frontier of ViT acceleration.
- Abstract(参考訳): 視覚変換器(ViT)における自己注意の二次的コストは、トークン還元の研究の活発な行を動機付け、実用的展開の基本的なボトルネックとなっている。
既存のアプローチの中で、トークンマージ(ToMe)はエレガントなトレーニングなしのソリューションとして登場したが、その設計は、十分に文書化された自己アテンションの非一様性に反し、アグレッシブな圧縮の下で高可用性トークンに情報損失をもたらすトークン平等の前提に基づいている。
この制限には、2つの補完メカニズムに基づいたトークンマージフレームワークであるAdaMergeを用いて対処する。
第一に、サリエンス重み付き類似性は、カラムワイドの特徴親和性中心性をトークン重要度プロキシとして利用し、得られたサリエンススコアをバイパートイトマッチングスコアに組み込んで、ピボットトークンがマージされた表現により強く寄与することを保証する。
第2に、アダプティブマージ強度は、事前計算された層単位での類似性統計を用いて、入力固有の冗長度に応じて、層単位の還元数を動的に変調する。
ViT-B/16 の ImageNet-1k では、AdaMerge が ToMe, PiToMe, DSM を常に上回っている。
13.4G FLOPsの動作点では、AdaMergeはトップ-1の劣化を-1.06%しか維持していないが、PiToMeは-1.45%、DSMは-4.62%である。
我々の知る限り、AdaMergeは、サリエンス重み付き類似性と適応的な層単位の削減を単一のトレーニングフリートークンマージフレームワークに組み合わせ、ViTアクセラレーションの精度-FLOPs Paretoフロンティアを前進させた最初の企業です。
関連論文リスト
- Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity [54.95089105944234]
視覚言語モデル(VLM)は、過剰な視覚トークンの生成によって引き起こされる計算の非効率性に直面する。
2段階パイプラインを特徴とする訓練不要なSynergistic Importance-DiversityアプローチPruneSIDを提案する。
LLaVA-NeXTでは11.1%のトークン保持率で96.3%の精度、極端な圧縮速度(5.6%)で92.8%の精度を実現した。
論文 参考訳(メタデータ) (2026-03-10T10:31:58Z) - Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。
本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T14:23:18Z) - Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning [63.43972993473501]
視覚変換器(ViT)の訓練と推論を高速化するトークン圧縮
しかし、下流タスクに適用した場合、圧縮度はトレーニングと推論の段階で不一致となる。
本稿では,2段階間の圧縮度を分離するモデル演算フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T10:36:43Z) - Focus on the Core: Efficient Attention via Pruned Token Compression for Document Classification [6.660834045805309]
BERTのような事前訓練されたトランスフォーマーは計算コストのかかる自己保持機構に悩まされる。
トークンプルーニングとトークンの組み合わせという2つの戦略を統合することを提案する。
さまざまなデータセットによる実験は、ベースラインモデルよりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-06-03T12:51:52Z) - Accelerating Transformers with Spectrum-Preserving Token Merging [43.463808781808645]
PiToMeは、エネルギースコアと呼ばれる追加のメトリックを使用して、情報トークンの保存を優先する。
実験の結果,PiToMeはベースモデルの40~60%のFLOPから保存されていた。
論文 参考訳(メタデータ) (2024-05-25T09:37:01Z) - Token Fusion: Bridging the Gap between Token Pruning and Token Merging [71.84591084401458]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの強力なバックボーンとして登場し、多くの伝統的なCNNを上回っている。
計算オーバーヘッドは、主に自己アテンション機構によるもので、リソース制約のあるエッジデバイスへのデプロイが困難になる。
トークンプルーニングとトークンマージの両方のメリットを両立させる手法であるToken Fusion(ToFu)を紹介する。
論文 参考訳(メタデータ) (2023-12-02T04:29:19Z) - Adaptive Fourier Neural Operators: Efficient Token Mixers for
Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。
AFNOは、演算子学習の原則的基礎に基づいている。
65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文 参考訳(メタデータ) (2021-11-24T05:44:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。