論文の概要: Lossless Token Merging Even Without Fine-Tuning in Vision Transformers
- arxiv url: http://arxiv.org/abs/2505.15160v1
- Date: Wed, 21 May 2025 06:26:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.014295
- Title: Lossless Token Merging Even Without Fine-Tuning in Vision Transformers
- Title(参考訳): 視覚変換器の微調整も不要なレスレストケマージ
- Authors: Jaeyeon Lee, Dong-Wan Choi,
- Abstract要約: トークン圧縮技術は、しばしば深刻な情報損失に悩まされる。
本稿では、ロスレストークンのマージを保証する新しい手法であるAdaptive Token Merging(ATM)を提案する。
我々は、幅広い事前訓練されたモデルにまたがって、我々の手法を実証的に検証する。
- 参考スコア(独自算出の注目度): 6.618072564198905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although Vision Transformers (ViTs) have become the standard architecture in computer vision, their massive sizes lead to significant computational overhead. Token compression techniques have attracted considerable attention to address this issue, but they often suffer from severe information loss, requiring extensive additional training to achieve practical performance. In this paper, we propose Adaptive Token Merging (ATM), a novel method that ensures lossless token merging, eliminating the need for fine-tuning while maintaining competitive performance. ATM adaptively reduces tokens across layers and batches by carefully adjusting layer-specific similarity thresholds, thereby preventing the undesirable merging of less similar tokens with respect to each layer. Furthermore, ATM introduces a novel token matching technique that considers not only similarity but also merging sizes, particularly for the final layers, to minimize the information loss incurred from each merging operation. We empirically validate our method across a wide range of pretrained models, demonstrating that ATM not only outperforms all existing training-free methods but also surpasses most training-intensive approaches, even without additional training. Remarkably, training-free ATM achieves over a 30% reduction in FLOPs for the DeiT-T and DeiT-S models without any drop in their original accuracy.
- Abstract(参考訳): ビジョントランスフォーマー (ViT) はコンピュータビジョンの標準アーキテクチャとなっているが、その巨大なサイズは計算オーバーヘッドを著しく高めている。
トークン圧縮技術はこの問題に対処するためにかなりの注意を払っているが、それらはしばしば深刻な情報損失に悩まされ、実用的な性能を達成するために広範な追加訓練を必要としている。
本稿では,損失のないトークンのマージを保証する新しい手法であるAdaptive Token Merging(ATM)を提案する。
ATMは、層固有の類似度閾値を慎重に調整することで、層やバッチ間のトークンを適応的に削減し、各層に対してあまり類似しないトークンのマージを防止する。
さらに、ATMは、類似性だけでなく、特に最終層のためにマージサイズも考慮し、マージ操作毎に発生する情報損失を最小限に抑える新しいトークンマッチング技術を導入している。
ATMは既存のトレーニング不要の手法を全て上回るだけでなく、追加のトレーニングなしでもほとんどのトレーニング集約的なアプローチを上回ります。
トレーニング不要のATMは、オリジナルの精度を低下させることなく、DeiT-TおよびDeiT-SモデルのFLOPを30%以上削減する。
関連論文リスト
- Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。
本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T14:23:18Z) - Is Less More? Exploring Token Condensation as Training-free Test-time Adaptation [43.09801987385207]
対照的に、CLIP(Contrastive Language- Image Pretraining)は、一般化可能な画像表現の学習において優れているが、特定のデータセットのゼロショット推論では不足することが多い。
テスト時間適応(TTA)は、正規化レイヤやコンテキストプロンプトなどのコンポーネントを調整することでこの問題を軽減するが、通常は大きなバッチサイズと広範な拡張を必要とする。
本稿では,TCA(Token Condensation as Adaptation)を提案する。
論文 参考訳(メタデータ) (2024-10-16T07:13:35Z) - Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning [63.43972993473501]
視覚変換器(ViT)の訓練と推論を高速化するトークン圧縮
しかし、下流タスクに適用した場合、圧縮度はトレーニングと推論の段階で不一致となる。
本稿では,2段階間の圧縮度を分離するモデル演算フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T10:36:43Z) - Focus on the Core: Efficient Attention via Pruned Token Compression for Document Classification [6.660834045805309]
BERTのような事前訓練されたトランスフォーマーは計算コストのかかる自己保持機構に悩まされる。
トークンプルーニングとトークンの組み合わせという2つの戦略を統合することを提案する。
さまざまなデータセットによる実験は、ベースラインモデルよりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-06-03T12:51:52Z) - Adaptive Computation Modules: Granular Conditional Computation For Efficient Inference [12.371152982808914]
本稿では,適応計算モジュール (Adaptive Computation Module, ACM) を提案する。
ACMは、先行する学習者の出力を段階的に洗練する学習者列から構成される。追加のゲーティング機構は、各トークンに対して最適な学習者数を決定する。
コンピュータビジョンおよび音声認識におけるトランスフォーマーモデルの評価により,ACMを用いた置換層は,広範囲のユーザ定義予算において,下流の精度を低下させることなく,推論コストを大幅に低減することを示した。
論文 参考訳(メタデータ) (2023-12-15T20:39:43Z) - Token Fusion: Bridging the Gap between Token Pruning and Token Merging [71.84591084401458]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの強力なバックボーンとして登場し、多くの伝統的なCNNを上回っている。
計算オーバーヘッドは、主に自己アテンション機構によるもので、リソース制約のあるエッジデバイスへのデプロイが困難になる。
トークンプルーニングとトークンマージの両方のメリットを両立させる手法であるToken Fusion(ToFu)を紹介する。
論文 参考訳(メタデータ) (2023-12-02T04:29:19Z) - Automatic Rule Induction for Efficient Semi-Supervised Learning [56.91428251227253]
半教師付き学習は、少量のラベル付きデータからNLPモデルを一般化できることを約束している。
事前訓練されたトランスモデルはブラックボックス相関エンジンとして機能し、説明が困難であり、時には信頼性に欠ける振る舞いをする。
本稿では,これらの課題に,簡易かつ汎用的なフレームワークであるAutomatic Rule Injection (ARI) を用いて対処することを提案する。
論文 参考訳(メタデータ) (2022-05-18T16:50:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。