論文の概要: SpectralKD: A Unified Framework for Interpreting and Distilling Vision Transformers via Spectral Analysis
- arxiv url: http://arxiv.org/abs/2412.19055v2
- Date: Mon, 27 Jan 2025 08:04:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:51:58.891407
- Title: SpectralKD: A Unified Framework for Interpreting and Distilling Vision Transformers via Spectral Analysis
- Title(参考訳): SpectralKD: スペクトル解析による視覚変換器の解釈と拡張のための統一フレームワーク
- Authors: Huiyuan Tian, Bonan Xu, Shijian Li, Gang Pan,
- Abstract要約: 知識蒸留(KD)は、大きな視覚変換器(ViT)の圧縮において広く成功している。
本稿では、スペクトル分析によるVETの深い洞察を提供し、KDを最適化する新しい統合分析フレームワークであるSpectralKDを提案する。
- 参考スコア(独自算出の注目度): 8.614026245059579
- License:
- Abstract: Knowledge Distillation (KD) has achieved widespread success in compressing large Vision Transformers (ViTs), but a unified theoretical framework for both ViTs and KD is still lacking. In this paper, we propose SpectralKD, a novel unified analytical framework that offers deeper insights into ViTs and optimizes KD via spectral analysis. Our model-wise analysis reveals that CaiT concentrates information in their first and last few layers, informing optimal layer selection for KD. Surprisingly, our layer-wise analysis discovers that Swin Transformer and CaiT exhibit similar spectral encoding patterns despite their architectural differences, leading to feature map alignment guideline. Building on these insights, we propose a simple yet effective spectral alignment method for KD. Benefiting from the deeper understanding by above analysis results, even such a simple strategy achieves state-of-the-art performance on ImageNet-1K without introducing any trainable parameters, improving DeiT-Tiny by $+5.2\%$ and Swin-Tiny by $+1.4\%$ in top-1 accuracy. Furthermore, our post-training analysis reveals that distilled students can reproduce spectral patterns similar to their teachers, opening a new area we term ``distillation dynamics". Code and experimental logs are available in https://github.com/thy960112/SpectralKD.
- Abstract(参考訳): 知識蒸留 (KD) は大規模な視覚変換器 (ViT) の圧縮において広く成功したが、ViTとKDの双方に統一された理論的枠組みはいまだに不足している。
本稿では,新しい統合分析フレームワークであるSpectralKDを提案する。
モデルワイズ分析の結果,CaiTは第1層と第2層に情報を集中し,KDの最適層選択を行うことがわかった。
驚くべきことに,Swin Transformer と CaiT は,構造上の違いにもかかわらず,類似のスペクトル符号化パターンを呈し,特徴マップアライメントガイドラインが導かれる。
これらの知見に基づいて,KDの簡易かつ効果的なスペクトルアライメント法を提案する。
上記の分析結果からより深く理解することで、ImageNet-1Kの最先端のパフォーマンスをトレーニング可能なパラメータを導入することなく達成し、DeiT-Tinyを$+5.2\%、Swin-Tinyを$+1.4\%の精度で改善する。
さらに, 留学生は, 教師に類似したスペクトルパターンを再現し, 「蒸留ダイナミクス」という新しい領域を創り出すことができた。
コードと実験ログはhttps://github.com/thy960112/SpectralKD.comで公開されている。
関連論文リスト
- Adaptive Methods through the Lens of SDEs: Theoretical Insights on the Role of Noise [15.535139686653611]
本研究は, SignSGD, RMSprop(W), Adam(W) という適応適応型の新しいSDEを紹介する。
これらのSDEは、これらを定量的に正確に記述し、適応性、曲率ノイズ、勾配の間の複雑な関係を照らすのに役立つ。
私たちのアプローチは、ベストプラクティスや新しいスケーリングルールに関する貴重な洞察を提供できると考えています。
論文 参考訳(メタデータ) (2024-11-24T19:07:31Z) - An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training [51.622652121580394]
Masked Image Modeling (MIM) Pre-training for Large-scale Vision Transformer (ViTs) は、学習した自己教師型ViT機能に加えて、下流での有望なパフォーマンスを実現する。
本稿では,テキストテキストレメリーで軽量なViTの微調整性能が,この事前学習パラダイムの恩恵を受けるかどうかを問う。
バニラ/階層設計(5.7M$/6.5M$)による純軽量ViTの蒸留による事前トレーニングは、ImageNet-1で79.4%$/78.9%の精度で達成できる。
論文 参考訳(メタデータ) (2024-04-18T14:14:44Z) - Knowledge Distillation Performs Partial Variance Reduction [93.6365393721122]
知識蒸留は'学生'モデルの性能を高めるための一般的な手法である。
知識蒸留(KD)の背後にある力学は、まだ完全には理解されていない。
我々は,KDを新しいタイプの分散還元機構として解釈できることを示す。
論文 参考訳(メタデータ) (2023-05-27T21:25:55Z) - Strong Baselines for Parameter Efficient Few-Shot Fine-tuning [50.83426196335385]
FSC (Few-shot Classification) は、事前訓練(メタトレーニング)フェーズの後にクラス毎にいくつかの例を与えられた新しいクラスを学習する。
近年の研究では、新しいテストクラスで事前訓練された視覚変換器(ViT)を微調整することが、FSCにとって強力なアプローチであることが示されている。
しかし、微調整のViTは、時間、計算、ストレージに費用がかかる。
これにより、Transformerのパラメータのごく一部だけを微調整するPEFT法が考案された。
論文 参考訳(メタデータ) (2023-04-04T16:14:39Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Spectral Analysis Network for Deep Representation Learning and Image
Clustering [53.415803942270685]
本稿ではスペクトル分析に基づく教師なし深層表現学習のための新しいネットワーク構造を提案する。
パッチレベルで画像間の局所的な類似性を識別できるため、閉塞に対してより堅牢である。
クラスタリングに親しみやすい表現を学習し、データサンプル間の深い相関を明らかにすることができる。
論文 参考訳(メタデータ) (2020-09-11T05:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。