論文の概要: SpectralKD: Understanding and Optimizing Vision Transformer Distillation through Spectral Analysis
- arxiv url: http://arxiv.org/abs/2412.19055v1
- Date: Thu, 26 Dec 2024 04:45:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:28:21.140765
- Title: SpectralKD: Understanding and Optimizing Vision Transformer Distillation through Spectral Analysis
- Title(参考訳): 分光KD:分光分析による視覚変換器蒸留の理解と最適化
- Authors: Huiyuan Tian, Bonan Xu, Shijian Li, Gang Pan,
- Abstract要約: 本研究では,CaiTモデルが第1層と第2層に情報を集中し,特徴写像蒸留のための最適層選択を行うことを示す。
本稿では, 蒸留を最適化するための新しいスペクトル分析法とガイドラインを提案し, 知識伝達プロセスの解釈性を高めた。
- 参考スコア(独自算出の注目度): 8.614026245059579
- License:
- Abstract: Knowledge distillation effectively reduces model complexity while improving performance, yet the underlying knowledge transfer mechanisms remain poorly understood. We propose novel spectral analysis methods and guidelines to optimize distillation, making the knowledge transfer process more interpretable. Our analysis reveals that CaiT models concentrate information in their first and last few layers, informing optimal layer selection for feature map distillation. Surprisingly, we discover that Swin Transformer and CaiT exhibit similar spectral encoding patterns despite their architectural differences, enhancing our understanding of transformer architectures and leading to improved feature map alignment strategies. Based on these insights, we introduce a simple yet effective spectral alignment method named SpectralKD. Experimental results demonstrate that following our guidelines enables SpectralKD to achieve state-of-the-art performance (DeiT-Tiny: $+5.2\%$, Swin-Tiny: $+1.4\%$ in ImageNet-1k Top-1 accuracy). Furthermore, through spectral analysis of student models trained with and without distillation, we show that distilled models mirror spectral patterns of their teachers, providing a new lens for interpreting knowledge distillation dynamics. Our code, pre-trained models, and experimental logs will be made publicly available.
- Abstract(参考訳): 知識蒸留は、性能を改善しながら、モデルの複雑さを効果的に軽減するが、基礎となる知識伝達機構は理解されていない。
本稿では, 蒸留を最適化するための新しいスペクトル分析法とガイドラインを提案し, 知識伝達プロセスの解釈性を高めた。
分析の結果,CaiTモデルは第1層と第2層に情報を集中し,特徴写像の蒸留に最適な層選択を行うことがわかった。
驚くべきことに、Swin TransformerとCaiTは、アーキテクチャの違いにもかかわらず、同様のスペクトル符号化パターンを示し、トランスフォーマーアーキテクチャの理解を深め、特徴マップアライメント戦略の改善につながっている。
これらの知見に基づき,SpectralKDという単純なスペクトルアライメント手法を提案する。
このガイドラインに従うと、SpectralKDは最先端のパフォーマンスを達成することができる(DeiT-Tiny: $+5.2\%$, Swin-Tiny: $+1.4\%$ in ImageNet-1k Top-1 accuracy)。
さらに, 蒸留・無蒸留の学生モデルのスペクトル分析により, 蒸留モデルが教師のスペクトルパターンを反映し, 知識蒸留のダイナミクスを解釈するための新しいレンズを提供することを示した。
私たちのコード、事前訓練されたモデル、実験的なログが公開されます。
関連論文リスト
- Adaptive Methods through the Lens of SDEs: Theoretical Insights on the Role of Noise [15.535139686653611]
本研究は, SignSGD, RMSprop(W), Adam(W) という適応適応型の新しいSDEを紹介する。
これらのSDEは、これらを定量的に正確に記述し、適応性、曲率ノイズ、勾配の間の複雑な関係を照らすのに役立つ。
私たちのアプローチは、ベストプラクティスや新しいスケーリングルールに関する貴重な洞察を提供できると考えています。
論文 参考訳(メタデータ) (2024-11-24T19:07:31Z) - An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training [51.622652121580394]
Masked Image Modeling (MIM) Pre-training for Large-scale Vision Transformer (ViTs) は、学習した自己教師型ViT機能に加えて、下流での有望なパフォーマンスを実現する。
本稿では,テキストテキストレメリーで軽量なViTの微調整性能が,この事前学習パラダイムの恩恵を受けるかどうかを問う。
バニラ/階層設計(5.7M$/6.5M$)による純軽量ViTの蒸留による事前トレーニングは、ImageNet-1で79.4%$/78.9%の精度で達成できる。
論文 参考訳(メタデータ) (2024-04-18T14:14:44Z) - Knowledge Distillation Performs Partial Variance Reduction [93.6365393721122]
知識蒸留は'学生'モデルの性能を高めるための一般的な手法である。
知識蒸留(KD)の背後にある力学は、まだ完全には理解されていない。
我々は,KDを新しいタイプの分散還元機構として解釈できることを示す。
論文 参考訳(メタデータ) (2023-05-27T21:25:55Z) - Strong Baselines for Parameter Efficient Few-Shot Fine-tuning [50.83426196335385]
FSC (Few-shot Classification) は、事前訓練(メタトレーニング)フェーズの後にクラス毎にいくつかの例を与えられた新しいクラスを学習する。
近年の研究では、新しいテストクラスで事前訓練された視覚変換器(ViT)を微調整することが、FSCにとって強力なアプローチであることが示されている。
しかし、微調整のViTは、時間、計算、ストレージに費用がかかる。
これにより、Transformerのパラメータのごく一部だけを微調整するPEFT法が考案された。
論文 参考訳(メタデータ) (2023-04-04T16:14:39Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Spectral Analysis Network for Deep Representation Learning and Image
Clustering [53.415803942270685]
本稿ではスペクトル分析に基づく教師なし深層表現学習のための新しいネットワーク構造を提案する。
パッチレベルで画像間の局所的な類似性を識別できるため、閉塞に対してより堅牢である。
クラスタリングに親しみやすい表現を学習し、データサンプル間の深い相関を明らかにすることができる。
論文 参考訳(メタデータ) (2020-09-11T05:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。