論文の概要: What Do Students Learn? A Feature-Level Analysis of Dark Knowledge
- arxiv url: http://arxiv.org/abs/2606.03052v1
- Date: Tue, 02 Jun 2026 02:38:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.703251
- Title: What Do Students Learn? A Feature-Level Analysis of Dark Knowledge
- Title(参考訳): 学生は何を学べるか? 暗黒知識の特徴レベル分析
- Authors: Seungu Kang, Songkuk Kim,
- Abstract要約: コンフュージョン蒸留(Confusion Distillation, CD)は、モデル自体の進化する混乱パターンをダイナミックなソフトターゲットとして活用する教師なしの自己蒸留法である。
CD は CIFAR-100 の ResNet-34 と ResNet-50 の競合性能を達成し、CS-KD や PS-KD といった既存の自己蒸留法よりも 1.2% 向上した。
- 参考スコア(独自算出の注目度): 4.060731229044571
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge Distillation (KD) is a powerful tool for model compression, yet the precise mechanisms by which student models acquire feature representations remain underexplored. In this work, we analyze student feature learning using the Interaction Tensor framework. Our analysis reveals that effective KD acts as a regularizer that prunes low-frequency, sample-specific features, encouraging the student to rely on a compact set of highly reusable features. Crucially, we observe that the dataset-level confusion matrix contains structural information analogous to the teacher's "Dark Knowledge." Leveraging this insight, we propose Confusion Distillation (CD), a teacher-free self-distillation method that utilizes the model's own evolving confusion patterns as dynamic soft targets. CD achieves competitive performance on ResNet-34 and ResNet-50 for CIFAR-100, outperforming existing self-distillation methods like CS-KD and PS-KD by 1.2% while offering a computationally efficient alternative to standard KD.
- Abstract(参考訳): 知識蒸留(KD)は、モデル圧縮のための強力なツールであるが、学生モデルが特徴表現を取得するための正確なメカニズムは未解明のままである。
本研究では,インタラクション・テンソル・フレームワークを用いて,学生の特徴学習を分析する。
分析の結果, 有効KDは, 低周波, サンプル特異な特徴を呈する正則化器として機能し, 生徒が高再利用性特徴のコンパクトなセットに頼ることが示唆された。
重要なことは、データセットレベルの混乱行列は教師の「ダークナレッジ」に類似した構造情報を含んでいることを観察する。
この知見を生かして,モデルの進化する混乱パターンをダイナミックなソフトターゲットとして活用する教師なし自己蒸留法であるConfusion Distillation (CD)を提案する。
CD は CIFAR-100 の ResNet-34 と ResNet-50 の競合性能を達成し、CS-KD や PS-KD といった既存の自己蒸留法を 1.2% 上回った。
関連論文リスト
- Knowledge Distillation: Enhancing Neural Network Compression with Integrated Gradients [0.0]
本稿では,知識蒸留(KD)と統合勾配(IG)を併用した機械学習フレームワークを提案する。
本稿では,教師モデルから事前計算されたIGマップを訓練画像上にオーバーレイして,コンパクトな学生モデルを重要な特徴表現へ導く,新たなデータ拡張戦略を提案する。
CIFAR-10の実験は,本手法の有効性を実証している: MobileNet-V2 教師の4.1倍圧縮した学生モデルでは,標準の 91.4% と従来の KD アプローチを上回り,分類精度92.5% を達成し,推論遅延を 140 ms から 13 ms-a 10fold に低減した。
論文 参考訳(メタデータ) (2025-03-17T10:07:50Z) - TIE-KD: Teacher-Independent and Explainable Knowledge Distillation for
Monocular Depth Estimation [1.03590082373586]
本稿では、複雑な教師モデルからコンパクトな学生ネットワークへの知識伝達を合理化するTIE-KD(Teacher-Independent Explainable Knowledge Distillation)フレームワークを紹介する。
TIE-KDの基盤はDPM(Depth Probability Map)であり、教師の出力を解釈する説明可能な特徴マップである。
KITTIデータセットの大規模な評価は、TIE-KDが従来の応答に基づくKD法より優れているだけでなく、多様な教師や学生のアーキテクチャで一貫した有効性を示すことを示している。
論文 参考訳(メタデータ) (2024-02-22T07:17:30Z) - Distilling Privileged Multimodal Information for Expression Recognition using Optimal Transport [46.91791643660991]
マルチモーダル表現認識のための深層学習モデルは, 制御された実験室環境において顕著な性能を示した。
これらのモデルは、トレーニングに使用されるモダリティの可用性と品質のために、荒野で苦労する。
実際には、テスト時に利用できるのはトレーニング時モダリティのサブセットのみである。
特権情報による学習により、モデルはトレーニング中にのみ利用できる追加のモダリティからデータを利用することができる。
論文 参考訳(メタデータ) (2024-01-27T19:44:15Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文 参考訳(メタデータ) (2023-05-25T04:49:34Z) - CES-KD: Curriculum-based Expert Selection for Guided Knowledge
Distillation [4.182345120164705]
本稿では,知識蒸留のためのカリキュラムエキスパート選択法(CES-KD)を提案する。
CES-KDは、階層化された教育カリキュラムを使用して学生ネットワークを徐々にガイドすべきという仮説に基づいている。
具体的には、画像の分類の難しさに起因したカリキュラムに基づいて、入力画像ごとに1人の教師を選択する段階的なTAベースのKD手法を提案する。
論文 参考訳(メタデータ) (2022-09-15T21:02:57Z) - Knowledge Distillation with Representative Teacher Keys Based on
Attention Mechanism for Image Classification Model Compression [1.503974529275767]
知識蒸留(KD)はモデルパラメータを減らすためのモデル圧縮の効果的な方法の1つとして認識されている。
注意機構にヒントを得て,代表教師キー(RTK)と呼ばれる新しいKD手法を提案する。
提案するRTKは,最先端の注意に基づくKD手法の分類精度を効果的に向上させることができる。
論文 参考訳(メタデータ) (2022-06-26T05:08:50Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - KDExplainer: A Task-oriented Attention Model for Explaining Knowledge
Distillation [59.061835562314066]
KDExplainerと呼ばれる新しいタスク指向の注意モデルを導入し、バニラKDの基礎となる作業メカニズムを明らかにします。
また、仮想注意モジュール(VAM)と呼ばれるポータブルツールを導入し、さまざまなディープニューラルネットワーク(DNN)とシームレスに統合し、KDの下でのパフォーマンスを向上させることができます。
論文 参考訳(メタデータ) (2021-05-10T08:15:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。