論文の概要: ViTKD: Practical Guidelines for ViT feature knowledge distillation
- arxiv url: http://arxiv.org/abs/2209.02432v1
- Date: Tue, 6 Sep 2022 11:52:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 14:21:12.284942
- Title: ViTKD: Practical Guidelines for ViT feature knowledge distillation
- Title(参考訳): ViTKD: ViT の機能的知識蒸留の実践的ガイドライン
- Authors: Zhendong Yang, Zhe Li, Ailing Zeng, Zexian Li, Chun Yuan, Yu Li
- Abstract要約: Vision Transformer (ViT)は多くのコンピュータビジョンタスクで大きな成功を収めた。
学生に一貫性と大幅な改善をもたらす機能ベースのViTKDを提案する。
ImageNet-1kでは、DeiT-Tinyを74.42%から76.06%、DeiT-Smallを80.55%から81.95%、DeiT-Baseを81.76%から83.46%に引き上げます。
- 参考スコア(独自算出の注目度): 23.8103504246977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge Distillation (KD) for Convolutional Neural Network (CNN) is
extensively studied as a way to boost the performance of a small model.
Recently, Vision Transformer (ViT) has achieved great success on many computer
vision tasks and KD for ViT is also desired. However, besides the output
logit-based KD, other feature-based KD methods for CNNs cannot be directly
applied to ViT due to the huge structure gap. In this paper, we explore the way
of feature-based distillation for ViT. Based on the nature of feature maps in
ViT, we design a series of controlled experiments and derive three practical
guidelines for ViT's feature distillation. Some of our findings are even
opposite to the practices in the CNN era. Based on the three guidelines, we
propose our feature-based method ViTKD which brings consistent and considerable
improvement to the student. On ImageNet-1k, we boost DeiT-Tiny from 74.42% to
76.06%, DeiT-Small from 80.55% to 81.95%, and DeiT-Base from 81.76% to 83.46%.
Moreover, ViTKD and the logit-based KD method are complementary and can be
applied together directly. This combination can further improve the performance
of the student. Specifically, the student DeiT-Tiny, Small, and Base achieve
77.78%, 83.59%, and 85.41%, respectively. The code is available at
https://github.com/yzd-v/cls_KD.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)の知識蒸留(KD)は,小型モデルの性能向上の手段として広く研究されている。
近年、ビジョントランスフォーマー(ViT)は多くのコンピュータビジョンタスクで大きな成功を収めており、VT用のKDも望まれている。
しかし、出力ロジットベースのKD以外に、CNNの他の機能ベースのKDメソッドは、大きな構造的ギャップのためにViTに直接適用できない。
本稿では, 特徴量に基づくViT蒸留法について検討する。
vitにおける機能マップの性質に基づいて一連の制御実験をデザインし,vitの特徴蒸留のための3つの実践的ガイドラインを導出する。
CNN時代の実践とは逆の発見もいくつかあります。
3つのガイドラインに基づいて,学生に一貫性と大幅な改善をもたらす機能ベースのViTKDを提案する。
ImageNet-1kでは、DeiT-Tinyを74.42%から76.06%、DeiT-Smallを80.55%から81.95%、DeiT-Baseを81.76%から83.46%に引き上げます。
さらに、ViTKDとロジットベースのKD法は相補的であり、直接的に適用することができる。
この組み合わせは、学生のパフォーマンスをさらに向上させることができる。
具体的には、生徒のDeiT-Tiny、Small、Baseはそれぞれ77.78%、83.59%、85.41%である。
コードはhttps://github.com/yzd-v/cls_kdで入手できる。
関連論文リスト
- DeiT-LT Distillation Strikes Back for Vision Transformer Training on Long-Tailed Datasets [30.178427266135756]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクの顕著なアーキテクチャとして登場した。
ViTは事前トレーニングに大量のデータを必要とする。
DeiT-LTを導入し、長い尾のデータセットのスクラッチからViTをトレーニングする問題に対処する。
論文 参考訳(メタデータ) (2024-04-03T17:58:21Z) - TVT: Training-Free Vision Transformer Search on Tiny Datasets [32.1204216324339]
トレーニングフリービジョントランスフォーマー(ViT)アーキテクチャサーチは、コストゼロのプロキシを持つより良いViTを探すために提示される。
私たちのTVTは、教師が認識するメトリックと生徒の能力のメトリクスを使って、ConvNetの教師と蒸留するのに最適なViTを検索します。
論文 参考訳(メタデータ) (2023-11-24T08:24:31Z) - ViT-Lens: Initiating Omni-Modal Exploration through 3D Insights [61.36309876889977]
ViT-Lensは、事前訓練されたViTで新しいモダリティを知覚し、予め定義された空間に整列することで、効率的なOmni-Modal表現学習を可能にする。
ゼロショット3D分類では、ViT-Lensは従来の最先端技術よりも大幅に改善されている。
近い将来、さらなるモダリティに関するViT-Lensの結果を公表します。
論文 参考訳(メタデータ) (2023-08-20T07:26:51Z) - Convolutional Embedding Makes Hierarchical Vision Transformer Stronger [16.72943631060293]
ビジョントランスフォーマー(ViT)は近年、コンピュータビジョンタスクの領域を支配しているが、訓練データ効率の低下と、適切な帰納バイアスを伴わない局所意味表現能力の低下に悩まされている。
CNNは本質的に地域を意識したセマンティクスを捉え、研究者はCNNをViTのアーキテクチャに戻して、ViTに望ましい帰納的バイアスを与えるよう促す。
本稿では,ハイブリッドCNN/ViTのマクロアーキテクチャが階層型ViTの性能をいかに向上させるかを検討する。
論文 参考訳(メタデータ) (2022-07-27T06:36:36Z) - DeiT III: Revenge of the ViT [56.46810490275699]
Vision Transformer (ViT) は、複数のコンピュータビジョンタスクを処理可能なシンプルなニューラルネットワークアーキテクチャである。
最近の研究によると、ViTsはBeiTのようなBerTライクな事前訓練の恩恵を受けている。
論文 参考訳(メタデータ) (2022-04-14T17:13:44Z) - Auto-scaling Vision Transformers without Training [84.34662535276898]
本研究では,視覚変換器(ViT)の自動スケーリングフレームワークAs-ViTを提案する。
As-ViTは、ViTを効率的かつ原則的に自動的に発見し、スケールアップする。
As-ViTは統合されたフレームワークとして、分類と検出において高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-02-24T06:30:55Z) - Improving Vision Transformers for Incremental Learning [17.276384689286168]
本稿では、クラスインクリメンタルラーニングにおける視覚変換器(ViT)の応用について検討する。
クラス数が小さいとき、ViTは収束が非常に遅い。
新しいクラスに対するバイアスは、CNNベースのモデルよりもViTの方が大きい。
論文 参考訳(メタデータ) (2021-12-12T00:12:33Z) - A Unified Pruning Framework for Vision Transformers [40.7622551128182]
ビジョントランス(ViT)とその変種は様々なコンピュータビジョンタスクにおいて有望な性能を達成した。
本稿では, UP-ViT と UP-ViT の両方の構造解析のための統一的な枠組みを提案する。
本手法は,モデル構造の整合性を維持しつつ,すべてのViTsコンポーネントのプルーニングに重点を置いている。
論文 参考訳(メタデータ) (2021-11-30T05:01:02Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - Emerging Properties in Self-Supervised Vision Transformers [57.36837447500544]
コンボリューションネットワーク (convnets) と比較して際立つ, 自己監督型 ViT が Vision Transformer (ViT) に新たな特性を提供することを示した。
本研究は,ラベルのない自己蒸留の形態として解釈する,DINOと呼ばれる単純な自己監督方式で実施する。
ViT-Baseを用いた線形評価において、ImageNet上で80.1%のトップ-1を達成し、DINOとViTの相乗効果を示す。
論文 参考訳(メタデータ) (2021-04-29T12:28:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。