論文の概要: Training-Free Acceleration of ViTs with Delayed Spatial Merging
- arxiv url: http://arxiv.org/abs/2303.02331v2
- Date: Mon, 1 Jul 2024 10:16:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-02 18:29:26.320581
- Title: Training-Free Acceleration of ViTs with Delayed Spatial Merging
- Title(参考訳): 遅延空間マージによるViTの無トレーニング加速
- Authors: Jung Hwan Heo, Seyedarmin Azizi, Arash Fayyazi, Massoud Pedram,
- Abstract要約: トークンマージは視覚変換器(ViT)の推論をリトレーニングや微調整なしに高速化する新しいパラダイムとして登場した。
1) アクティベーション・アウトレイアと2) 階層表現の視点を付加することでトークンのマージを改善する。
DSM: Delayed Spatial Mergingと呼ばれる統合推論フレームワークを構築します。
- 参考スコア(独自算出の注目度): 4.523939613157408
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Token merging has emerged as a new paradigm that can accelerate the inference of Vision Transformers (ViTs) without any retraining or fine-tuning. To push the frontier of training-free acceleration in ViTs, we improve token merging by adding the perspectives of 1) activation outliers and 2) hierarchical representations. Through a careful analysis of the attention behavior in ViTs, we characterize a delayed onset of the convergent attention phenomenon, which makes token merging undesirable in the bottom blocks of ViTs. Moreover, we augment token merging with a hierarchical processing scheme to capture multi-scale redundancy between visual tokens. Combining these two insights, we build a unified inference framework called DSM: Delayed Spatial Merging. We extensively evaluate DSM on various ViT model scales (Tiny to Huge) and tasks (ImageNet-1k and transfer learning), achieving up to 1.8$\times$ FLOP reduction and 1.6$\times$ throughput speedup at a negligible loss while being two orders of magnitude faster than existing methods.
- Abstract(参考訳): 視覚変換器(ViT)の推論をリトレーニングや微調整なしに高速化する新しいパラダイムとして、トークンマージが登場した。
ViTにおけるトレーニングフリーアクセラレーションのフロンティアを推し進めるために、私たちはトークンマージを改善するために、視点を追加することで、トークンマージを改善する。
1)アクティベーション・アウトレイアと
2)階層的な表現。
ViTの注意行動の注意的解析を通じて,ViTの底ブロックにおいてトークンのマージが望ましくないような収束注意現象の遅延を特徴付ける。
さらに、視覚的トークン間のマルチスケール冗長性を捉えるために、階層的な処理手法とトークンのマージを強化する。
これら2つの洞察を組み合わせることで、DSM: Delayed Spatial Mergingと呼ばれる統合推論フレームワークを構築します。
我々は,様々な ViT モデルスケール (Tiny to Huge) とタスク (ImageNet-1k and transfer learning) に基づいて DSM を広範囲に評価し,最大1.8$\times$ FLOP の削減と1.6$\times$スループットの高速化を実現した。
関連論文リスト
- Improving Interpretation Faithfulness for Vision Transformers [42.86486715574245]
ビジョントランスフォーマー(ViT)は、様々なビジョンタスクに対して最先端のパフォーマンスを達成した。
ViTは、彼らの焦点が敵の攻撃に対して脆弱であるため、説明の忠実さに関する問題に悩まされる。
本稿では、Fithful ViTs(FViTs)を導入してこれらの問題を緩和するための厳格なアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-29T18:51:21Z) - I&S-ViT: An Inclusive & Stable Method for Pushing the Limit of Post-Training ViTs Quantization [49.17407185195788]
我々は,ViTのPTQを包括的かつ安定した方法で制御する新しい手法であるI&S-ViTを紹介する。
I&S-ViTは3ビットのViT-Bの性能を50.68%向上させた。
論文 参考訳(メタデータ) (2023-11-16T13:07:47Z) - Accelerating Vision Transformers Based on Heterogeneous Attention
Patterns [89.86293867174324]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの分野で多くの注目を集めている。
層間における異種注意パターンの観測に基づく統合圧縮パイプラインを提案する。
実験的に、DGSSAとGLADの統合圧縮パイプラインは、最大121%のランタイムスループットを加速することができる。
論文 参考訳(メタデータ) (2023-10-11T17:09:19Z) - CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and
Favorable Transferability For ViTs [79.54107547233625]
ビジョントランスフォーマー (ViT) は様々なビジョンタスクの最先端モデルとして登場した。
本稿では,高精度かつ高速な推論速度を実現するViTのジョイント圧縮手法を提案する。
提案手法は,様々な ViT にまたがって最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2023-09-27T16:12:07Z) - Anti-Oversmoothing in Deep Vision Transformers via the Fourier Domain
Analysis: From Theory to Practice [111.47461527901318]
Vision Transformer (ViT) は先日,コンピュータビジョン問題における有望性を実証した。
ViTは観察された注意崩壊やパッチの均一性のために、深さが増加するにつれて急速に飽和する。
所望の低域制限を緩和する2つの手法を提案する。
論文 参考訳(メタデータ) (2022-03-09T23:55:24Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - On Improving Adversarial Transferability of Vision Transformers [97.17154635766578]
視覚変換器(ViT)は、入力画像を、自己注意によるパッチのシーケンスとして処理する。
本稿では,ViTモデルの対角的特徴空間とその伝達性について検討する。
本稿では,ViTモデルのアーキテクチャに特有な2つの新しい戦略を紹介する。
論文 参考訳(メタデータ) (2021-06-08T08:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。