論文の概要: Distillation Dynamics: Towards Understanding Feature-Based Distillation in Vision Transformers
- arxiv url: http://arxiv.org/abs/2511.06848v2
- Date: Sat, 15 Nov 2025 16:34:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:22.082618
- Title: Distillation Dynamics: Towards Understanding Feature-Based Distillation in Vision Transformers
- Title(参考訳): 蒸留ダイナミクス:視覚変換器における特徴に基づく蒸留の理解に向けて
- Authors: Huiyuan Tian, Bonan Xu, Shijian Li,
- Abstract要約: 蒸留力学」と呼ばれる新しい分析枠組みを通じて、この現象を包括的に分析する。
特徴蒸留における負の伝達の根本原因を,教師と学生のモデル間の基本的な表現パラダイムのミスマッチと同定する。
この結果から,ViTsにおける知識伝達の成功には,これらの基本的表現制約を尊重する手法へのナイーブな特徴模倣を超越する必要があることが明らかとなった。
- 参考スコア(独自算出の注目度): 4.712287472749922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While feature-based knowledge distillation has proven highly effective for compressing CNNs, these techniques unexpectedly fail when applied to Vision Transformers (ViTs), often performing worse than simple logit-based distillation. We provide the first comprehensive analysis of this phenomenon through a novel analytical framework termed as "distillation dynamics", combining frequency spectrum analysis, information entropy metrics, and activation magnitude tracking. Our investigation reveals that ViTs exhibit a distinctive U-shaped information processing pattern: initial compression followed by expansion. We identify the root cause of negative transfer in feature distillation: a fundamental representational paradigm mismatch between teacher and student models. Through frequency-domain analysis, we show that teacher models employ distributed, high-dimensional encoding strategies in later layers that smaller student models cannot replicate due to limited channel capacity. This mismatch causes late-layer feature alignment to actively harm student performance. Our findings reveal that successful knowledge transfer in ViTs requires moving beyond naive feature mimicry to methods that respect these fundamental representational constraints, providing essential theoretical guidance for designing effective ViTs compression strategies. All source code and experimental logs are provided at https://github.com/thy960112/Distillation-Dynamics.
- Abstract(参考訳): 特徴に基づく知識蒸留はCNNを圧縮するのに非常に効果的であることが証明されているが、これらの技術は視覚変換器(ViT)に適用すると予期せず失敗する。
本稿では、周波数スペクトル分析、情報エントロピーメトリクス、アクティベーション・マグニチュード・トラッキングを組み合わせた「蒸留ダイナミクス」と呼ばれる新しい分析フレームワークを通じて、この現象を包括的に分析する。
調査の結果,ViTsはU字型情報処理パターンとして,初期圧縮と拡張が特徴的であることが明らかとなった。
特徴蒸留における負の伝達の根本原因を,教師と学生のモデル間の基本的な表現パラダイムのミスマッチと同定する。
周波数領域解析により、教師モデルは後層に分散された高次元符号化戦略を用いており、小学生モデルではチャネル容量の制限により複製できないことを示す。
このミスマッチは、後期機能のアライメントを引き起こし、生徒のパフォーマンスを積極的に損なう。
この結果から,ViTsにおける知識伝達の成功には,これらの基本的表現的制約を尊重する手法へのナイーブな模倣を超えて,有効なViTs圧縮戦略を設計するための基本的な理論的ガイダンスを提供する必要があることが明らかとなった。
すべてのソースコードと実験ログはhttps://github.com/thy960112/Distillation-Dynamicsで提供されている。
関連論文リスト
- Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - LIB-KD: Teaching Inductive Bias for Efficient Vision Transformer Distillation and Compression [4.0120180943504655]
ViT(Vision Transformers)は、視覚領域とテキスト領域にまたがる統一された情報処理の展望を提供する。
本稿では, 共用軽量教師モデルから誘導バイアスを消し去る, アンサンブルに基づく蒸留手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T13:21:29Z) - Uncovering the Hidden Cost of Model Compression [43.62624133952414]
視覚プロンプティングは、コンピュータビジョンにおける伝達学習の重要な方法として登場した。
モデル圧縮は視覚的プロンプトベース転送の性能に有害である。
しかし、量子化によってモデルが圧縮されるとき、キャリブレーションに対する負の効果は存在しない。
論文 参考訳(メタデータ) (2023-08-29T01:47:49Z) - Vision Transformers for Small Histological Datasets Learned through
Knowledge Distillation [1.4724454726700604]
視覚変換器(ViT)は、診断アルゴリズムを実行する前に、人工物を検出して排除することができる。
堅牢で一般化されたViTを開発するための簡単な方法は、巨大なデータセットでそれらをトレーニングすることだ。
気泡検出タスクにおけるViTの分類性能を向上させるための生徒-教師のレシピを提案する。
論文 参考訳(メタデータ) (2023-05-27T05:09:03Z) - A Theoretical Understanding of Shallow Vision Transformers: Learning,
Generalization, and Sample Complexity [71.11795737362459]
自己注意モジュールを持つViTは、最近多くのタスクで経験的な成功を収めた。
しかし、理論学習の一般化分析は、ほとんどノイズが多く、解答的である。
本稿では,分類タスクのための浅いViTの理論的解析を行った。
論文 参考訳(メタデータ) (2023-02-12T22:12:35Z) - Anomaly Detection via Reverse Distillation from One-Class Embedding [2.715884199292287]
教師エンコーダと生徒デコーダからなる新しいT-Sモデルを提案する。
生画像を直接受信する代わりに、学生ネットワークは教師モデルの1クラス埋め込みを入力として取り込む。
さらに、T-Sモデルにトレーニング可能な1クラスボトルネック埋め込みモジュールを導入する。
論文 参考訳(メタデータ) (2022-01-26T01:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。