論文の概要: Chasing Sparsity in Vision Transformers: An End-to-End Exploration
- arxiv url: http://arxiv.org/abs/2106.04533v2
- Date: Wed, 9 Jun 2021 22:28:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-11 14:49:18.999107
- Title: Chasing Sparsity in Vision Transformers: An End-to-End Exploration
- Title(参考訳): 視覚トランスフォーマーにおけるスパーシティの追求:エンドツーエンド探索
- Authors: Tianlong Chen, Yu Cheng, Zhe Gan, Lu Yuan, Lei Zhang, Zhangyang Wang
- Abstract要約: ビジョン・トランスフォーマー(ViT)は最近爆発的な人気を博したが、その巨大なモデルサイズとトレーニングコストは依然として大きなものだ。
本稿では、達成可能な精度を犠牲にすることなく、トレーニングメモリのオーバーヘッドと推論の複雑さの両方を削減することを目的とする。
具体的には、完全なViTをトレーニングする代わりに、固定された小さなパラメータ予算に固執しながら、スパースワークを動的に抽出し、訓練する。
- 参考スコア(独自算出の注目度): 127.10054032751714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformers (ViTs) have recently received explosive popularity, but
their enormous model sizes and training costs remain daunting. Conventional
post-training pruning often incurs higher training budgets. In contrast, this
paper aims to trim down both the training memory overhead and the inference
complexity, without sacrificing the achievable accuracy. We launch and report
the first-of-its-kind comprehensive exploration, on taking a unified approach
of integrating sparsity in ViTs "from end to end". Specifically, instead of
training full ViTs, we dynamically extract and train sparse subnetworks, while
sticking to a fixed small parameter budget. Our approach jointly optimizes
model parameters and explores connectivity throughout training, ending up with
one sparse network as the final output. The approach is seamlessly extended
from unstructured to structured sparsity, the latter by considering to guide
the prune-and-grow of self-attention heads inside ViTs. For additional
efficiency gains, we further co-explore data and architecture sparsity, by
plugging in a novel learnable token selector to adaptively determine the
currently most vital patches. Extensive results on ImageNet with diverse ViT
backbones validate the effectiveness of our proposals which obtain
significantly reduced computational cost and almost unimpaired generalization.
Perhaps most surprisingly, we find that the proposed sparse (co-)training can
even improve the ViT accuracy rather than compromising it, making sparsity a
tantalizing "free lunch". For example, our sparsified DeiT-Small at (5%, 50%)
sparsity for (data, architecture), improves 0.28% top-1 accuracy, and meanwhile
enjoys 49.32% FLOPs and 4.40% running time savings. Our codes are available at
https://github.com/VITA-Group/SViTE.
- Abstract(参考訳): ビジョン・トランスフォーマー(ViT)は最近爆発的な人気を博したが、その巨大なモデルサイズとトレーニングコストは依然として大きなものだ。
通常の訓練後の刈り取りは、しばしば高い訓練予算を伴います。
対照的に,本稿では,学習メモリのオーバヘッドと推論複雑性の両方を,実現可能な精度を犠牲にすることなく削減することを目的としている。
われわれは、ViTsに「端から端まで」スパーシリティを統合する統一的なアプローチを採り入れた、先駆的な包括的探査をローンチし報告する。
具体的には、完全なViTをトレーニングする代わりに、固定された小さなパラメータ予算を維持しながら、スパースサブネットワークを動的に抽出し、訓練する。
提案手法はモデルパラメータを協調的に最適化し,トレーニングを通じて接続性を探究し,最終的に1つの疎ネットワークを最終的な出力とする。
このアプローチは、非構造化から構造化されたスパース性へとシームレスに拡張され、後者は、vits内の自己愛の頭を導くことを検討する。
さらなる効率向上のために、我々は新しい学習可能なトークンセレクタを差し込み、現在最も重要なパッチを適応的に決定することで、データとアーキテクチャの疎結合をさらに発見する。
多様なViTバックボーンを持つImageNetの広範な結果から,計算コストを大幅に削減し,ほぼ不備な一般化を実現する提案の有効性が検証された。
おそらく最も驚くべきことに、提案されたスパース(コ-)トレーニングは、それを妥協するよりも、ViTの精度を向上し、スパースを「無料ランチ」にすることができる。
例えば、sparsified deit-small at (5%, 50%) sparsity for (data, architecture)、0.28% top-1の精度向上、49.32%のフロップと4.40%の実行時間の節約を実現しています。
私たちのコードはhttps://github.com/VITA-Group/SViTE.comで公開されています。
関連論文リスト
- Peeling the Onion: Hierarchical Reduction of Data Redundancy for
Efficient Vision Transformer Training [110.79400526706081]
ビジョントランス (ViT) は近年多くのアプリケーションで成功を収めているが、その計算量とメモリ使用量によって一般化が制限されている。
従来の圧縮アルゴリズムは通常、事前訓練された高密度モデルから始まり、効率的な推論のみに焦点を当てる。
本稿では,3つのスパースの観点から,Tri-Level E-ViTと呼ばれるエンドツーエンドの効率的なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-19T21:15:47Z) - Adaptive Sparse ViT: Towards Learnable Adaptive Token Pruning by Fully
Exploiting Self-Attention [36.90363317158731]
最小限のコストで適応的なスパーストークンプルーニングフレームワークを提案する。
提案手法では,DeiT-Sのスループットを50%向上し,トップ1の精度は0.2%低下した。
論文 参考訳(メタデータ) (2022-09-28T03:07:32Z) - Unified Visual Transformer Compression [102.26265546836329]
本稿では,3つの有効な手法をシームレスに組み立てる,統一的なViT圧縮フレームワークを提案する。
予算制約のあるエンドツーエンドの最適化フレームワークを定式化し、モデルウェイトを共同学習し、レイヤーワイドプルーニング比/マスクを作成し、構成をスキップする。
実験は、ImageNetデータセット上のDeiTやT2T-ViTのバックボーンなど、いくつかのViT変種で実施されています。
論文 参考訳(メタデータ) (2022-03-15T20:38:22Z) - Auto-scaling Vision Transformers without Training [84.34662535276898]
本研究では,視覚変換器(ViT)の自動スケーリングフレームワークAs-ViTを提案する。
As-ViTは、ViTを効率的かつ原則的に自動的に発見し、スケールアップする。
As-ViTは統合されたフレームワークとして、分類と検出において高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-02-24T06:30:55Z) - Sparsity Winning Twice: Better Robust Generalization from More Efficient
Training [94.92954973680914]
スパース対位訓練の代替として, (i) スタティック・スパシティと (ii) ダイナミック・スパシティの2つを紹介した。
いずれの方法も、ロバストな一般化ギャップを大幅に縮小し、ロバストなオーバーフィッティングを緩和する。
我々のアプローチは既存の正規化器と組み合わせて、敵の訓練における新たな最先端の成果を確立することができる。
論文 参考訳(メタデータ) (2022-02-20T15:52:08Z) - Pyramid Adversarial Training Improves ViT Performance [43.322865996422664]
ピラミッド逆行訓練は、ViTの全体的な性能を改善するためのシンプルで効果的な技術である。
これにより、ImageNet-1Kデータでのみトレーニングされた場合、ViT-Bモデルに対して、ImageNetのクリーンな精度が1.82%$で絶対的に向上する。
論文 参考訳(メタデータ) (2021-11-30T04:38:14Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。