論文の概要: TVT: Training-Free Vision Transformer Search on Tiny Datasets
- arxiv url: http://arxiv.org/abs/2311.14337v1
- Date: Fri, 24 Nov 2023 08:24:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 15:36:06.091578
- Title: TVT: Training-Free Vision Transformer Search on Tiny Datasets
- Title(参考訳): TVT:Tinyデータセット上でのトレーニングフリービジョントランスフォーマー検索
- Authors: Zimian Wei, Hengyue Pan, Lujun Li, Peijie Dong, Zhiliang Tian, Xin
Niu, Dongsheng Li
- Abstract要約: トレーニングフリービジョントランスフォーマー(ViT)アーキテクチャサーチは、コストゼロのプロキシを持つより良いViTを探すために提示される。
私たちのTVTは、教師が認識するメトリックと生徒の能力のメトリクスを使って、ConvNetの教師と蒸留するのに最適なViTを検索します。
- 参考スコア(独自算出の注目度): 32.1204216324339
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training-free Vision Transformer (ViT) architecture search is presented to
search for a better ViT with zero-cost proxies. While ViTs achieve significant
distillation gains from CNN teacher models on small datasets, the current
zero-cost proxies in ViTs do not generalize well to the distillation training
paradigm according to our experimental observations. In this paper, for the
first time, we investigate how to search in a training-free manner with the
help of teacher models and devise an effective Training-free ViT (TVT) search
framework. Firstly, we observe that the similarity of attention maps between
ViT and ConvNet teachers affects distill accuracy notably. Thus, we present a
teacher-aware metric conditioned on the feature attention relations between
teacher and student. Additionally, TVT employs the L2-Norm of the student's
weights as the student-capability metric to improve ranking consistency.
Finally, TVT searches for the best ViT for distilling with ConvNet teachers via
our teacher-aware metric and student-capability metric, resulting in impressive
gains in efficiency and effectiveness. Extensive experiments on various tiny
datasets and search spaces show that our TVT outperforms state-of-the-art
training-free search methods. The code will be released.
- Abstract(参考訳): トレーニングフリービジョントランスフォーマー(ViT)アーキテクチャサーチは、コストゼロのプロキシを持つより良いViTを探すために提示される。
小型データセット上でのCNN教師モデルから,ViTの蒸留能力は著しく向上するが,現在のViTのゼロコストプロキシは,実験結果により,蒸留訓練パラダイムに適していない。
本稿では,教師モデルの助けを借りて,トレーニングフリーで検索する方法を初めて検討し,効果的なトレーニングフリーViT(TVT)検索フレームワークを考案する。
まず,ViTとConvNetの教師間の注意マップの類似性は,蒸留精度に顕著に影響を及ぼす。
そこで本研究では,教師と学生の特徴的注意関係に着目した教師対応尺度を提案する。
さらに、tvtは学生の体重のl2ノルムを学生能力指標として採用し、ランキングの一貫性を高めている。
最後に、TVTは、教師が認識するメトリックと生徒の能力のメトリクスを使って、ConvNetの教師と蒸留するための最高のViTを検索する。
様々な小さなデータセットや検索空間に関する大規模な実験により、我々のTVTは最先端のトレーニング不要な検索方法よりも優れています。
コードはリリースされます。
関連論文リスト
- DeiT-LT Distillation Strikes Back for Vision Transformer Training on Long-Tailed Datasets [30.178427266135756]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクの顕著なアーキテクチャとして登場した。
ViTは事前トレーニングに大量のデータを必要とする。
DeiT-LTを導入し、長い尾のデータセットのスクラッチからViTをトレーニングする問題に対処する。
論文 参考訳(メタデータ) (2024-04-03T17:58:21Z) - Distilling Efficient Vision Transformers from CNNs for Semantic
Segmentation [12.177329445930276]
我々はC2VKDと呼ばれる新しいCNN-to-ViT KDフレームワークを提案する。
まず視覚的特徴蒸留(VLFD)モジュールを提案する。
そこで我々は,ラベルと教師の予測とを併用して学生を監督する,画素ワイド・デカップリング蒸留(PDD)モジュールを提案する。
論文 参考訳(メタデータ) (2023-10-11T07:45:37Z) - Experts Weights Averaging: A New General Training Scheme for Vision
Transformers [57.62386892571636]
推論コストを増大させることなく性能向上を実現するビジョントランスフォーマー(ViT)のトレーニング手法を提案する。
トレーニング中、ViTのFeed-Forward Networks(FFN)を、特別に設計されたより効率的なMoEに置き換える。
トレーニング後、各MoEを専門家を平均化してFFNに変換し、モデルを推論のために元のViTに変換する。
論文 参考訳(メタデータ) (2023-08-11T12:05:12Z) - DeiT III: Revenge of the ViT [56.46810490275699]
Vision Transformer (ViT) は、複数のコンピュータビジョンタスクを処理可能なシンプルなニューラルネットワークアーキテクチャである。
最近の研究によると、ViTsはBeiTのようなBerTライクな事前訓練の恩恵を受けている。
論文 参考訳(メタデータ) (2022-04-14T17:13:44Z) - Training-free Transformer Architecture Search [89.88412583106741]
Vision Transformer (ViT) はいくつかのコンピュータビジョンタスクで顕著な成功を収めた。
現在のTransformer Architecture Search (TAS) の手法は時間がかかり、既存のCNNのゼロコストプロキシはViT検索空間にうまく一般化していない。
本稿では,TASをトレーニング不要な方法で実施する方法を初めて検討し,効果的なトレーニング不要なTASスキームを考案する。
論文 参考訳(メタデータ) (2022-03-23T06:06:54Z) - Auto-scaling Vision Transformers without Training [84.34662535276898]
本研究では,視覚変換器(ViT)の自動スケーリングフレームワークAs-ViTを提案する。
As-ViTは、ViTを効率的かつ原則的に自動的に発見し、スケールアップする。
As-ViTは統合されたフレームワークとして、分類と検出において高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-02-24T06:30:55Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - Emerging Properties in Self-Supervised Vision Transformers [57.36837447500544]
コンボリューションネットワーク (convnets) と比較して際立つ, 自己監督型 ViT が Vision Transformer (ViT) に新たな特性を提供することを示した。
本研究は,ラベルのない自己蒸留の形態として解釈する,DINOと呼ばれる単純な自己監督方式で実施する。
ViT-Baseを用いた線形評価において、ImageNet上で80.1%のトップ-1を達成し、DINOとViTの相乗効果を示す。
論文 参考訳(メタデータ) (2021-04-29T12:28:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。