論文の概要: SpectralKD: A Unified Framework for Interpreting and Distilling Vision Transformers via Spectral Analysis
- arxiv url: http://arxiv.org/abs/2412.19055v3
- Date: Thu, 30 Jan 2025 07:00:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 11:52:42.741854
- Title: SpectralKD: A Unified Framework for Interpreting and Distilling Vision Transformers via Spectral Analysis
- Title(参考訳): SpectralKD: スペクトル解析による視覚変換器の解釈と拡張のための統一フレームワーク
- Authors: Huiyuan Tian, Bonan Xu, Shijian Li, Gang Pan,
- Abstract要約: 知識蒸留(KD)は、大きな視覚変換器(ViT)の圧縮において広く成功している。
本稿では、スペクトル分析によるVETの深い洞察を提供し、KDを最適化する新しい統合分析フレームワークであるSpectralKDを提案する。
- 参考スコア(独自算出の注目度): 8.614026245059579
- License:
- Abstract: Knowledge Distillation (KD) has achieved widespread success in compressing large Vision Transformers (ViTs), but a unified theoretical framework for both ViTs and KD is still lacking. In this paper, we propose SpectralKD, a novel unified analytical framework that offers deeper insights into ViTs and optimizes KD via spectral analysis. Our model-wise analysis reveals that CaiT concentrates information in their first and last few layers, informing optimal layer selection for KD. Surprisingly, our layer-wise analysis discovers that Swin Transformer and CaiT exhibit similar spectral encoding patterns despite their architectural differences, leading to feature map alignment guideline. Building on these insights, we propose a simple yet effective spectral alignment method for KD. Benefiting from the deeper understanding by above analysis results, even such a simple strategy achieves state-of-the-art performance on ImageNet-1K without introducing any trainable parameters, improving DeiT-Tiny by $+5.2\%$ and Swin-Tiny by $+1.4\%$ in top-1 accuracy. Furthermore, our post-training analysis reveals that distilled students can reproduce spectral patterns similar to their teachers, opening a new area we term ``distillation dynamics". Code and experimental logs are available in https://github.com/thy960112/SpectralKD.
- Abstract(参考訳): 知識蒸留 (KD) は大規模な視覚変換器 (ViT) の圧縮において広く成功したが、ViTとKDの双方に統一された理論的枠組みはいまだに不足している。
本稿では,新しい統合分析フレームワークであるSpectralKDを提案する。
モデルワイズ分析の結果,CaiTは第1層と第2層に情報を集中し,KDの最適層選択を行うことがわかった。
驚くべきことに,Swin Transformer と CaiT は,構造上の違いにもかかわらず,類似のスペクトル符号化パターンを呈し,特徴マップアライメントガイドラインが導かれる。
これらの知見に基づいて,KDの簡易かつ効果的なスペクトルアライメント法を提案する。
上記の分析結果からより深く理解することで、ImageNet-1Kの最先端のパフォーマンスをトレーニング可能なパラメータを導入することなく達成し、DeiT-Tinyを$+5.2\%、Swin-Tinyを$+1.4\%の精度で改善する。
さらに, 留学生は, 教師に類似したスペクトルパターンを再現し, 「蒸留ダイナミクス」という新しい領域を創り出すことができた。
コードと実験ログはhttps://github.com/thy960112/SpectralKD.comで公開されている。
関連論文リスト
- Inductive Gradient Adjustment For Spectral Bias In Implicit Neural Representations [17.832898905413877]
Inlicit Neural Representations (INR)は様々なコンピュータタスクで成功している。
バニラ多層パーセプトロン(MLP)のスペクトルバイアスのため、既存の手法は高度なアーキテクチャを使った設計や、高精度なINRのためのトレーニング技術の再開発に重点を置いている。
本稿では,eNTKに基づく勾配変換行列の帰納的一般化により,スペクトルバイアスを意図的に改善する実用的な勾配調整法を提案する。
論文 参考訳(メタデータ) (2024-10-17T06:51:10Z) - One Step Diffusion-based Super-Resolution with Time-Aware Distillation [60.262651082672235]
拡散に基づく画像超解像(SR)法は,低解像度画像から細部まで細部まで,高解像度画像の再構成に有望であることを示す。
近年,拡散型SRモデルの知識蒸留によるサンプリング効率の向上が試みられている。
我々は,効率的な画像超解像を実現するため,TAD-SRというタイムアウェア拡散蒸留法を提案する。
論文 参考訳(メタデータ) (2024-08-14T11:47:22Z) - DiffSpectralNet : Unveiling the Potential of Diffusion Models for
Hyperspectral Image Classification [6.521187080027966]
我々は拡散と変圧器技術を組み合わせたDiffSpectralNetと呼ばれる新しいネットワークを提案する。
まず,拡散モデルに基づく教師なし学習フレームワークを用いて,高レベル・低レベルのスペクトル空間的特徴を抽出する。
この拡散法はスペクトル空間の特徴を多様かつ有意義に抽出し,HSI分類の改善につながる。
論文 参考訳(メタデータ) (2023-10-29T15:26:37Z) - Knowledge Distillation Performs Partial Variance Reduction [93.6365393721122]
知識蒸留は'学生'モデルの性能を高めるための一般的な手法である。
知識蒸留(KD)の背後にある力学は、まだ完全には理解されていない。
我々は,KDを新しいタイプの分散還元機構として解釈できることを示す。
論文 参考訳(メタデータ) (2023-05-27T21:25:55Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Spectrum-BERT: Pre-training of Deep Bidirectional Transformers for
Spectral Classification of Chinese Liquors [0.0]
本稿では,中国酒のスペクトル分類のための双方向トランスフォーマーの事前学習手法を提案し,これをSpectrum-BERTと略した。
我々はNext Curve Prediction (NCP) と Masked Curve Model (MCM) の2つの事前学習タスクを精巧に設計し、未ラベルのサンプルを効果的に活用できるようにした。
比較実験では、提案したSpectrum-BERTは、複数のメトリクスでベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2022-10-22T13:11:25Z) - Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。
ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。
本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文 参考訳(メタデータ) (2021-07-03T08:28:34Z) - Spectral Tensor Train Parameterization of Deep Learning Layers [136.4761580842396]
重み行列の低ランクパラメータ化をDeep Learningコンテキストに埋め込まれたスペクトル特性を用いて検討する。
分類設定におけるニューラルネットワーク圧縮の効果と,生成的対角トレーニング設定における圧縮および安定性トレーニングの改善について述べる。
論文 参考訳(メタデータ) (2021-03-07T00:15:44Z) - Explainable Systematic Analysis for Synthetic Aperture Sonar Imagery [2.989889278970106]
局所的解釈可能なモデル非依存説明(LIME)などのツールを用いて,詳細かつ体系的な分析を行う。
クラス不均衡などの微調整過程における要因に対する感度を検討する。
論文 参考訳(メタデータ) (2021-01-06T16:33:27Z) - Spectral Analysis Network for Deep Representation Learning and Image
Clustering [53.415803942270685]
本稿ではスペクトル分析に基づく教師なし深層表現学習のための新しいネットワーク構造を提案する。
パッチレベルで画像間の局所的な類似性を識別できるため、閉塞に対してより堅牢である。
クラスタリングに親しみやすい表現を学習し、データサンプル間の深い相関を明らかにすることができる。
論文 参考訳(メタデータ) (2020-09-11T05:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。