論文の概要: Unified Visual Transformer Compression
- arxiv url: http://arxiv.org/abs/2203.08243v1
- Date: Tue, 15 Mar 2022 20:38:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 14:19:53.681385
- Title: Unified Visual Transformer Compression
- Title(参考訳): 統一視覚変圧器圧縮
- Authors: Shixing Yu, Tianlong Chen, Jiayi Shen, Huan Yuan, Jianchao Tan, Sen
Yang, Ji Liu, Zhangyang Wang
- Abstract要約: 本稿では,3つの有効な手法をシームレスに組み立てる,統一的なViT圧縮フレームワークを提案する。
予算制約のあるエンドツーエンドの最適化フレームワークを定式化し、モデルウェイトを共同学習し、レイヤーワイドプルーニング比/マスクを作成し、構成をスキップする。
実験は、ImageNetデータセット上のDeiTやT2T-ViTのバックボーンなど、いくつかのViT変種で実施されています。
- 参考スコア(独自算出の注目度): 102.26265546836329
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformers (ViTs) have gained popularity recently. Even without
customized image operators such as convolutions, ViTs can yield competitive
performance when properly trained on massive data. However, the computational
overhead of ViTs remains prohibitive, due to stacking multi-head self-attention
modules and else. Compared to the vast literature and prevailing success in
compressing convolutional neural networks, the study of Vision Transformer
compression has also just emerged, and existing works focused on one or two
aspects of compression. This paper proposes a unified ViT compression framework
that seamlessly assembles three effective techniques: pruning, layer skipping,
and knowledge distillation. We formulate a budget-constrained, end-to-end
optimization framework, targeting jointly learning model weights, layer-wise
pruning ratios/masks, and skip configurations, under a distillation loss. The
optimization problem is then solved using the primal-dual algorithm.
Experiments are conducted with several ViT variants, e.g. DeiT and T2T-ViT
backbones on the ImageNet dataset, and our approach consistently outperforms
recent competitors. For example, DeiT-Tiny can be trimmed down to 50\% of the
original FLOPs almost without losing accuracy. Codes are available
online:~\url{https://github.com/VITA-Group/UVC}.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は近年人気を集めている。
畳み込みのようなカスタマイズされたイメージ演算子がなくても、大規模なデータで適切にトレーニングされた場合、ViTは競争力を発揮する。
しかし、ViTsの計算オーバーヘッドは、マルチヘッド自己注意モジュールなどの積み重ねのため、いまだに禁じられている。
畳み込みニューラルネットワークの圧縮における膨大な文献や成功と比較すると、視覚トランスフォーマーの圧縮の研究も始まったばかりであり、既存の作品では圧縮の1つか2つの側面に焦点を当てている。
本稿では,pruning,layer skipping,knowledge distillationの3つの効果的な手法をシームレスに組み立てる統一vit圧縮フレームワークを提案する。
我々は, 蒸留損失下でのモデル重み, 層別プルーニング比/マスク, スキップ構成を目標とした, 予算制約付きエンドツーエンド最適化フレームワークを定式化した。
最適化問題は原始双対アルゴリズムを用いて解かれる。
実験は、ImageNetデータセット上のDeiTやT2T-ViTのバックボーンなど、いくつかのViT変種で実施されています。
例えば、DeiT-Tinyは精度を損なうことなく、オリジナルのFLOPの50%までトリミングできる。
コードはオンラインで入手できる。~\url{https://github.com/VITA-Group/UVC}。
関連論文リスト
- DiffRate : Differentiable Compression Rate for Efficient Vision
Transformers [98.33906104846386]
Token圧縮は、プルーニング(ドロップ)やトークンのマージによって、大規模な視覚変換器(ViTなど)を高速化することを目的としている。
DiffRate(ディフレート)は、先行技術にはないいくつかの魅力的な特性を持つ新しいトークン圧縮手法である。
論文 参考訳(メタデータ) (2023-05-29T10:15:19Z) - RangeViT: Towards Vision Transformers for 3D Semantic Segmentation in
Autonomous Driving [80.14669385741202]
視覚変換器(ViT)は多くの画像ベースのベンチマークで最先端の結果を得た。
ViTはトレーニングが難しいことで知られており、強力な表現を学ぶために大量のトレーニングデータを必要とする。
提案手法はRangeViTと呼ばれ,nuScenes や Semantic KITTI において既存のプロジェクションベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-24T18:50:48Z) - Anti-Oversmoothing in Deep Vision Transformers via the Fourier Domain
Analysis: From Theory to Practice [111.47461527901318]
Vision Transformer (ViT) は先日,コンピュータビジョン問題における有望性を実証した。
ViTは観察された注意崩壊やパッチの均一性のために、深さが増加するにつれて急速に飽和する。
所望の低域制限を緩和する2つの手法を提案する。
論文 参考訳(メタデータ) (2022-03-09T23:55:24Z) - Auto-scaling Vision Transformers without Training [84.34662535276898]
本研究では,視覚変換器(ViT)の自動スケーリングフレームワークAs-ViTを提案する。
As-ViTは、ViTを効率的かつ原則的に自動的に発見し、スケールアップする。
As-ViTは統合されたフレームワークとして、分類と検出において高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-02-24T06:30:55Z) - A Unified Pruning Framework for Vision Transformers [40.7622551128182]
ビジョントランス(ViT)とその変種は様々なコンピュータビジョンタスクにおいて有望な性能を達成した。
本稿では, UP-ViT と UP-ViT の両方の構造解析のための統一的な枠組みを提案する。
本手法は,モデル構造の整合性を維持しつつ,すべてのViTsコンポーネントのプルーニングに重点を置いている。
論文 参考訳(メタデータ) (2021-11-30T05:01:02Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。