論文の概要: Adaptive Sparse ViT: Towards Learnable Adaptive Token Pruning by Fully
Exploiting Self-Attention
- arxiv url: http://arxiv.org/abs/2209.13802v2
- Date: Thu, 6 Jul 2023 10:49:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 18:29:36.542877
- Title: Adaptive Sparse ViT: Towards Learnable Adaptive Token Pruning by Fully
Exploiting Self-Attention
- Title(参考訳): adaptive sparse vit: セルフアテンションをフル活用した学習可能な適応トークンプルーニング
- Authors: Xiangcheng Liu, Tianyi Wu, Guodong Guo
- Abstract要約: 最小限のコストで適応的なスパーストークンプルーニングフレームワークを提案する。
提案手法では,DeiT-Sのスループットを50%向上し,トップ1の精度は0.2%低下した。
- 参考スコア(独自算出の注目度): 36.90363317158731
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformer has emerged as a new paradigm in computer vision, showing
excellent performance while accompanied by expensive computational cost. Image
token pruning is one of the main approaches for ViT compression, due to the
facts that the complexity is quadratic with respect to the token number, and
many tokens containing only background regions do not truly contribute to the
final prediction. Existing works either rely on additional modules to score the
importance of individual tokens, or implement a fixed ratio pruning strategy
for different input instances. In this work, we propose an adaptive sparse
token pruning framework with a minimal cost. Specifically, we firstly propose
an inexpensive attention head importance weighted class attention scoring
mechanism. Then, learnable parameters are inserted as thresholds to distinguish
informative tokens from unimportant ones. By comparing token attention scores
and thresholds, we can discard useless tokens hierarchically and thus
accelerate inference. The learnable thresholds are optimized in budget-aware
training to balance accuracy and complexity, performing the corresponding
pruning configurations for different input instances. Extensive experiments
demonstrate the effectiveness of our approach. Our method improves the
throughput of DeiT-S by 50% and brings only 0.2% drop in top-1 accuracy, which
achieves a better trade-off between accuracy and latency than the previous
methods.
- Abstract(参考訳): ビジョントランスフォーマーはコンピュータビジョンの新しいパラダイムとして登場し、高価な計算コストを伴う優れた性能を示している。
画像トークンのプルーニングは、トークン数に対して複雑さが二次的であること、背景領域のみを含む多くのトークンが最終的な予測に真に寄与しないという事実から、ViT圧縮の主要なアプローチの1つである。
既存の作業は、個々のトークンの重要性を評価するために追加モジュールに依存するか、異なる入力インスタンスに対して固定比率プルーニング戦略を実装している。
本研究では,最小限のコストで適応的なスパーストークンプルーニングフレームワークを提案する。
具体的には,まず,安価な注意頭部重要度重み付けクラス注意得点機構を提案する。
そして、学習可能なパラメータをしきい値として挿入して、重要でないトークンと情報を区別する。
トークンアテンションスコアとしきい値を比較することで、不要なトークンを階層的に破棄し、推論を加速することができる。
学習可能なしきい値は、精度と複雑さのバランスをとるために予算対応トレーニングに最適化され、異なる入力インスタンスに対して対応するプルーニング設定を実行する。
大規模な実験は我々のアプローチの有効性を実証する。
提案手法はdeit-sのスループットを50%向上させ,top-1精度が0.2%低下しただけで,従来の手法よりも精度とレイテンシのトレードオフが向上した。
関連論文リスト
- ToSA: Token Selective Attention for Efficient Vision Transformers [50.13756218204456]
ToSAはトークン選択型アテンションアプローチで、コンバータ層をスキップできるトークンだけでなく、参加する必要のあるトークンも識別できる。
ToSAは,ImageNet分類ベンチマークの精度を維持しながら,計算コストを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-06-13T05:17:21Z) - Focus on the Core: Efficient Attention via Pruned Token Compression for Document Classification [6.660834045805309]
BERTのような事前訓練されたトランスフォーマーは計算コストのかかる自己保持機構に悩まされる。
トークンプルーニングとトークンの組み合わせという2つの戦略を統合することを提案する。
さまざまなデータセットによる実験は、ベースラインモデルよりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-06-03T12:51:52Z) - Revisiting the Power of Prompt for Visual Tuning [50.11465784194896]
本研究では,プロンプトとパッチトークンの相互関係について検討した。
プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。
本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文 参考訳(メタデータ) (2024-02-04T07:49:02Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Revisiting Token Pruning for Object Detection and Instance Segmentation [25.3324628669201]
オブジェクトとインスタンスのセグメンテーションの推論を高速化するトークンプルーニングについて検討する。
従来のトークンプルーニング法と比較して,ボックス・マスクともに1.5mAPから0.3mAPに低下した。
論文 参考訳(メタデータ) (2023-06-12T11:55:33Z) - Multi-Scale And Token Mergence: Make Your ViT More Efficient [3.087140219508349]
Vision Transformer (ViT) はコンピュータビジョン領域において一般的なモデルとして登場した。
より重要なトークンとマージすることで,非機密トークンからの情報を保持できる新しいトークンプルーニング手法を提案する。
提案手法は,DeiT-Sの精度は0.1%しか低下せず,計算コストの33%の大幅な削減を実現している。
論文 参考訳(メタデータ) (2023-06-08T02:58:15Z) - Joint Token Pruning and Squeezing Towards More Aggressive Compression of
Vision Transformers [2.0442992958844517]
視覚変換器を高効率で圧縮するための新しいTPS(Token Pruning & Squeezing Module)を提案する。
TPSは、プルーニングされたトークンの情報を、一方向近傍のマッチングと類似性に基づく融合ステップを介して、部分的な予約トークンに絞り込む。
提案手法は,DeiT-tinyを超えるスループットを向上し,精度はDeiT-tinyより4.78%向上する。
論文 参考訳(メタデータ) (2023-04-21T02:59:30Z) - Beyond Attentive Tokens: Incorporating Token Importance and Diversity
for Efficient Vision Transformers [32.972945618608726]
視覚変換器は様々な視覚タスクにおいて大幅に改善されているが、トークン間の2次相互作用は計算効率を大幅に低下させた。
本稿では,トークン分離におけるトークンの重要性と多様性を共同で検討できる,効率的なトークン分離とマージ手法を提案する。
FLOPを40%削減した後,DeiT-Tの精度を0.1%向上させることができる。
論文 参考訳(メタデータ) (2022-11-21T09:57:11Z) - Token-Label Alignment for Vision Transformers [93.58540411138164]
データ混合戦略(例えば、CutMix)は、畳み込みニューラルネットワーク(CNN)の性能を大幅に改善する能力を示している。
我々は,データ混合戦略の可能性を抑制するトークン変動現象を同定する。
本稿では,各トークンのラベルを保持するために,変換されたトークンと元のトークンとの対応をトレースするトークンラベルアライメント(TL-Align)手法を提案する。
論文 参考訳(メタデータ) (2022-10-12T17:54:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。