論文の概要: Vision Transformer Slimming: Multi-Dimension Searching in Continuous
Optimization Space
- arxiv url: http://arxiv.org/abs/2201.00814v1
- Date: Mon, 3 Jan 2022 18:59:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-04 13:02:53.534451
- Title: Vision Transformer Slimming: Multi-Dimension Searching in Continuous
Optimization Space
- Title(参考訳): vision transformer slimming: 連続最適化空間における多次元探索
- Authors: Arnav Chavan and Zhiqiang Shen and Zhuang Liu and Zechun Liu and
Kwang-Ting Cheng and Eric Xing
- Abstract要約: 複数の次元にまたがってそのようなサブ構造を探索できる純粋視覚トランスフォーマースライミング(ViT-Slim)フレームワークを導入する。
本手法は,各次元の連続探索空間におけるグローバルな重要性を反映した,事前定義された因子による学習可能かつ統一されたl1空間制約に基づく。
我々のViT-Slimは、パラメータの最大40%と様々な視覚変換器上でのFLOPを圧縮でき、ImageNetの精度は0.6%向上する。
- 参考スコア(独自算出の注目度): 35.04846842178276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper explores the feasibility of finding an optimal sub-model from a
vision transformer and introduces a pure vision transformer slimming (ViT-Slim)
framework that can search such a sub-structure from the original model
end-to-end across multiple dimensions, including the input tokens, MHSA and MLP
modules with state-of-the-art performance. Our method is based on a learnable
and unified l1 sparsity constraint with pre-defined factors to reflect the
global importance in the continuous searching space of different dimensions.
The searching process is highly efficient through a single-shot training
scheme. For instance, on DeiT-S, ViT-Slim only takes ~43 GPU hours for
searching process, and the searched structure is flexible with diverse
dimensionalities in different modules. Then, a budget threshold is employed
according to the requirements of accuracy-FLOPs trade-off on running devices,
and a re-training process is performed to obtain the final models. The
extensive experiments show that our ViT-Slim can compress up to 40% of
parameters and 40% FLOPs on various vision transformers while increasing the
accuracy by ~0.6% on ImageNet. We also demonstrate the advantage of our
searched models on several downstream datasets. Our source code will be
publicly available.
- Abstract(参考訳): 本稿では,視覚トランスフォーマから最適なサブモデルを見つけ出す可能性について検討し,入力トークン,mhsa,mlpモジュールを含む多次元にわたってそのサブ構造を探索可能なpure vision transformer slimming (vit-slim)フレームワークを導入する。
本手法は,学習可能で統一されたl1スパーシティ制約に基づき,異なる次元の連続探索空間における大域的重要性を反映する。
探索過程は単発訓練方式により極めて効率的である。
例えば、DeiT-Sでは、ViT-Slimは探索に43時間程度しかかからず、探索された構造は異なるモジュールの様々な次元で柔軟である。
そして、動作装置上での精度FLOPsトレードオフの要求に応じて予算しきい値を使用し、最終モデルを得るための再訓練処理を行う。
広範にわたる実験により,vit-slimは各種視覚トランスフォーマー上で最大40%のパラメータと40%のフラップを圧縮でき,imagenetでは約0.6%の精度向上が達成できた。
また、いくつかのダウンストリームデータセットで検索したモデルの利点を実証する。
ソースコードは公開される予定だ。
関連論文リスト
- Hierarchical Side-Tuning for Vision Transformers [34.55731467838914]
本稿では,種々の下流タスクへのVT転送を効果的に行う新しいPETL手法である階層側チューニング(HST)を提案する。
HSTを検証するために,分類,オブジェクト検出,インスタンスセグメンテーション,セマンティックセグメンテーションなど,多様な視覚的タスクを含む広範な実験を行った。
VTAB-1kでは,0.78Mパラメータを微調整しながら,最先端の平均Top-1精度76.4%を実現した。
論文 参考訳(メタデータ) (2023-10-09T04:16:35Z) - Which Transformer to Favor: A Comparative Analysis of Efficiency in
Vision Transformers [6.701127328655752]
視覚変換器および関連アーキテクチャの効率を評価するために,30モデル以上の包括的解析を行う。
私たちのベンチマークは、効率指向のトランスフォーマーのランドスケープに匹敵するベースラインを提供します。
FLOPS数とトレーニングメモリとの間には強い正の相関関係が発見され,必要なVRAMの推定が可能となった。
論文 参考訳(メタデータ) (2023-08-18T08:06:49Z) - Getting ViT in Shape: Scaling Laws for Compute-Optimal Model Design [84.34416126115732]
スケーリング法則は、最近、与えられた計算時間に最適なモデルサイズ(パラメータの数)を導出するために用いられる。
我々は、幅や深さなどの計算最適モデル形状を推測する手法を進化させ、改良し、視覚変換器でこれを実装した。
我々の形状最適化型視覚変換器SoViTは、同等の計算量で事前訓練されているにもかかわらず、サイズが2倍以上のモデルと競合する結果を得る。
論文 参考訳(メタデータ) (2023-05-22T13:39:28Z) - Bilaterally Slimmable Transformer for Elastic and Efficient Visual
Question Answering [75.86788916930377]
左右にスリム化可能なトランスフォーマー(BST)は任意のトランスフォーマーベースのVQAモデルに統合される。
1つのスリム化MCAN-BSTサブモデルは、VQA-v2で同等の精度を達成する。
最も小さなMCAN-BSTサブモデルは、推論中に9Mパラメータと0.16GのFLOPを持つ。
論文 参考訳(メタデータ) (2022-03-24T02:26:04Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。