論文の概要: SpectralKD: Understanding and Optimizing Vision Transformer Distillation through Spectral Analysis
- arxiv url: http://arxiv.org/abs/2412.19055v1
- Date: Thu, 26 Dec 2024 04:45:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:28:21.140765
- Title: SpectralKD: Understanding and Optimizing Vision Transformer Distillation through Spectral Analysis
- Title(参考訳): 分光KD:分光分析による視覚変換器蒸留の理解と最適化
- Authors: Huiyuan Tian, Bonan Xu, Shijian Li, Gang Pan,
- Abstract要約: 本研究では,CaiTモデルが第1層と第2層に情報を集中し,特徴写像蒸留のための最適層選択を行うことを示す。
本稿では, 蒸留を最適化するための新しいスペクトル分析法とガイドラインを提案し, 知識伝達プロセスの解釈性を高めた。
- 参考スコア(独自算出の注目度): 8.614026245059579
- License:
- Abstract: Knowledge distillation effectively reduces model complexity while improving performance, yet the underlying knowledge transfer mechanisms remain poorly understood. We propose novel spectral analysis methods and guidelines to optimize distillation, making the knowledge transfer process more interpretable. Our analysis reveals that CaiT models concentrate information in their first and last few layers, informing optimal layer selection for feature map distillation. Surprisingly, we discover that Swin Transformer and CaiT exhibit similar spectral encoding patterns despite their architectural differences, enhancing our understanding of transformer architectures and leading to improved feature map alignment strategies. Based on these insights, we introduce a simple yet effective spectral alignment method named SpectralKD. Experimental results demonstrate that following our guidelines enables SpectralKD to achieve state-of-the-art performance (DeiT-Tiny: $+5.2\%$, Swin-Tiny: $+1.4\%$ in ImageNet-1k Top-1 accuracy). Furthermore, through spectral analysis of student models trained with and without distillation, we show that distilled models mirror spectral patterns of their teachers, providing a new lens for interpreting knowledge distillation dynamics. Our code, pre-trained models, and experimental logs will be made publicly available.
- Abstract(参考訳): 知識蒸留は、性能を改善しながら、モデルの複雑さを効果的に軽減するが、基礎となる知識伝達機構は理解されていない。
本稿では, 蒸留を最適化するための新しいスペクトル分析法とガイドラインを提案し, 知識伝達プロセスの解釈性を高めた。
分析の結果,CaiTモデルは第1層と第2層に情報を集中し,特徴写像の蒸留に最適な層選択を行うことがわかった。
驚くべきことに、Swin TransformerとCaiTは、アーキテクチャの違いにもかかわらず、同様のスペクトル符号化パターンを示し、トランスフォーマーアーキテクチャの理解を深め、特徴マップアライメント戦略の改善につながっている。
これらの知見に基づき,SpectralKDという単純なスペクトルアライメント手法を提案する。
このガイドラインに従うと、SpectralKDは最先端のパフォーマンスを達成することができる(DeiT-Tiny: $+5.2\%$, Swin-Tiny: $+1.4\%$ in ImageNet-1k Top-1 accuracy)。
さらに, 蒸留・無蒸留の学生モデルのスペクトル分析により, 蒸留モデルが教師のスペクトルパターンを反映し, 知識蒸留のダイナミクスを解釈するための新しいレンズを提供することを示した。
私たちのコード、事前訓練されたモデル、実験的なログが公開されます。
関連論文リスト
- Inductive Gradient Adjustment For Spectral Bias In Implicit Neural Representations [17.832898905413877]
Inlicit Neural Representations (INR)は様々なコンピュータタスクで成功している。
バニラ多層パーセプトロン(MLP)のスペクトルバイアスのため、既存の手法は高度なアーキテクチャを使った設計や、高精度なINRのためのトレーニング技術の再開発に重点を置いている。
本稿では,eNTKに基づく勾配変換行列の帰納的一般化により,スペクトルバイアスを意図的に改善する実用的な勾配調整法を提案する。
論文 参考訳(メタデータ) (2024-10-17T06:51:10Z) - One Step Diffusion-based Super-Resolution with Time-Aware Distillation [60.262651082672235]
拡散に基づく画像超解像(SR)法は,低解像度画像から細部まで細部まで,高解像度画像の再構成に有望であることを示す。
近年,拡散型SRモデルの知識蒸留によるサンプリング効率の向上が試みられている。
我々は,効率的な画像超解像を実現するため,TAD-SRというタイムアウェア拡散蒸留法を提案する。
論文 参考訳(メタデータ) (2024-08-14T11:47:22Z) - DiffSpectralNet : Unveiling the Potential of Diffusion Models for
Hyperspectral Image Classification [6.521187080027966]
我々は拡散と変圧器技術を組み合わせたDiffSpectralNetと呼ばれる新しいネットワークを提案する。
まず,拡散モデルに基づく教師なし学習フレームワークを用いて,高レベル・低レベルのスペクトル空間的特徴を抽出する。
この拡散法はスペクトル空間の特徴を多様かつ有意義に抽出し,HSI分類の改善につながる。
論文 参考訳(メタデータ) (2023-10-29T15:26:37Z) - Knowledge Distillation Performs Partial Variance Reduction [93.6365393721122]
知識蒸留は'学生'モデルの性能を高めるための一般的な手法である。
知識蒸留(KD)の背後にある力学は、まだ完全には理解されていない。
我々は,KDを新しいタイプの分散還元機構として解釈できることを示す。
論文 参考訳(メタデータ) (2023-05-27T21:25:55Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Spectrum-BERT: Pre-training of Deep Bidirectional Transformers for
Spectral Classification of Chinese Liquors [0.0]
本稿では,中国酒のスペクトル分類のための双方向トランスフォーマーの事前学習手法を提案し,これをSpectrum-BERTと略した。
我々はNext Curve Prediction (NCP) と Masked Curve Model (MCM) の2つの事前学習タスクを精巧に設計し、未ラベルのサンプルを効果的に活用できるようにした。
比較実験では、提案したSpectrum-BERTは、複数のメトリクスでベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2022-10-22T13:11:25Z) - Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。
ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。
本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文 参考訳(メタデータ) (2021-07-03T08:28:34Z) - Spectral Tensor Train Parameterization of Deep Learning Layers [136.4761580842396]
重み行列の低ランクパラメータ化をDeep Learningコンテキストに埋め込まれたスペクトル特性を用いて検討する。
分類設定におけるニューラルネットワーク圧縮の効果と,生成的対角トレーニング設定における圧縮および安定性トレーニングの改善について述べる。
論文 参考訳(メタデータ) (2021-03-07T00:15:44Z) - Explainable Systematic Analysis for Synthetic Aperture Sonar Imagery [2.989889278970106]
局所的解釈可能なモデル非依存説明(LIME)などのツールを用いて,詳細かつ体系的な分析を行う。
クラス不均衡などの微調整過程における要因に対する感度を検討する。
論文 参考訳(メタデータ) (2021-01-06T16:33:27Z) - Spectral Analysis Network for Deep Representation Learning and Image
Clustering [53.415803942270685]
本稿ではスペクトル分析に基づく教師なし深層表現学習のための新しいネットワーク構造を提案する。
パッチレベルで画像間の局所的な類似性を識別できるため、閉塞に対してより堅牢である。
クラスタリングに親しみやすい表現を学習し、データサンプル間の深い相関を明らかにすることができる。
論文 参考訳(メタデータ) (2020-09-11T05:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。