論文の概要: Neural Collapse Inspired Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2412.11788v1
- Date: Mon, 16 Dec 2024 14:00:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:56:46.816280
- Title: Neural Collapse Inspired Knowledge Distillation
- Title(参考訳): 神経崩壊による知識蒸留
- Authors: Shuoxi Zhang, Zijian Song, Kun He,
- Abstract要約: 本稿では,ニューラル・コラプス(NC)の構造を知識蒸留の枠組みに導入する。
ニューラル崩壊誘発知識蒸留(NCKD)と呼ばれる新しい蒸留パラダイムを提案する。
- 参考スコア(独自算出の注目度): 6.229955665031449
- License:
- Abstract: Existing knowledge distillation (KD) methods have demonstrated their ability in achieving student network performance on par with their teachers. However, the knowledge gap between the teacher and student remains significant and may hinder the effectiveness of the distillation process. In this work, we introduce the structure of Neural Collapse (NC) into the KD framework. NC typically occurs in the final phase of training, resulting in a graceful geometric structure where the last-layer features form a simplex equiangular tight frame. Such phenomenon has improved the generalization of deep network training. We hypothesize that NC can also alleviate the knowledge gap in distillation, thereby enhancing student performance. This paper begins with an empirical analysis to bridge the connection between knowledge distillation and neural collapse. Through this analysis, we establish that transferring the teacher's NC structure to the student benefits the distillation process. Therefore, instead of merely transferring instance-level logits or features, as done by existing distillation methods, we encourage students to learn the teacher's NC structure. Thereby, we propose a new distillation paradigm termed Neural Collapse-inspired Knowledge Distillation (NCKD). Comprehensive experiments demonstrate that NCKD is simple yet effective, improving the generalization of all distilled student models and achieving state-of-the-art accuracy performance.
- Abstract(参考訳): 既存の知識蒸留法 (KD) は, 学生ネットワークの性能を教員と同等に発揮する能力を示した。
しかし,教師と学生の知識ギャップは依然として顕著であり,蒸留プロセスの有効性を損なう可能性がある。
本稿では,ニューラルネットワーク(NC)の構造をKDフレームワークに導入する。
NCは通常、トレーニングの最終段階で発生し、最終層の特徴が単純な等角形状のタイトフレームを形成する優雅な幾何学的構造をもたらす。
このような現象は、ディープネットワークトレーニングの一般化を改善した。
我々は、NCは蒸留における知識ギャップを緩和し、学生のパフォーマンスを向上させることができると仮定する。
本稿では,知識蒸留と神経崩壊の関係を橋渡しする実証分析から始める。
この分析により,教師のNC構造を学生に転移させることが蒸留プロセスの恩恵をもたらすことが確認された。
したがって,既存の蒸留法で行われているように,単にインスタンスレベルのロジットや特徴を伝達するのではなく,教師のNC構造を学ぶことを奨励する。
そこで我々は,新しい蒸留パラダイムであるNeural Collapse-Inspireed Knowledge Distillation (NCKD)を提案する。
総合的な実験により、NCKDは単純だが有効であることが示され、全ての蒸留された学生モデルの一般化が向上し、最先端の精度が達成された。
関連論文リスト
- Decoupled Knowledge with Ensemble Learning for Online Distillation [3.794605440322862]
オンライン知識蒸留は、相互学習と協調学習による要求を緩和するワンステージ戦略である。
近年のペア協調学習(PCL)では,オンラインアンサンブル,ベースネットワークの協調,時間的平均教師による効果的な知識構築が実現されている。
オンライン知識蒸留のための分離知識は、学生とは別に独立した教師によって生成される。
論文 参考訳(メタデータ) (2023-12-18T14:08:59Z) - Improving Knowledge Distillation with Teacher's Explanation [14.935696904019146]
本稿では,KED(Knowledge Explaining Distillation)フレームワークを紹介する。
KEDは、教師の予測だけでなく、教師の説明からも学べるようにしている。
様々なデータセットに対する実験により,KEDの学生はKDの学生と同じような複雑さを著しく上回る結果が得られた。
論文 参考訳(メタデータ) (2023-10-04T04:18:01Z) - Triplet Knowledge Distillation [73.39109022280878]
知識蒸留(Knowledge Distillation)では、教師は一般的に生徒よりもはるかに大きく、教師の解法は生徒が学ぶのが難しくなる。
模擬困難を緩和するため,TriKDという三重項知識蒸留機構を導入する。
論文 参考訳(メタデータ) (2023-05-25T12:12:31Z) - Supervision Complexity and its Role in Knowledge Distillation [65.07910515406209]
蒸留した学生の一般化行動について検討する。
この枠組みは、教師の精度、教師の予測に対する生徒の差、教師の予測の複雑さの間の微妙な相互作用を強調している。
オンライン蒸留の有効性を実証し,様々な画像分類ベンチマークとモデルアーキテクチャに関する理論的知見を検証した。
論文 参考訳(メタデータ) (2023-01-28T16:34:47Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Revisiting Self-Distillation [50.29938732233947]
自己蒸留とは、大きなモデル(教師)からよりコンパクトなモデル(生徒)に「知識」を移す手順である。
いくつかの作品では、自給自足の生徒が保持されたデータで教師より優れているという逸話がある。
我々は、自己蒸留がより平坦なミニマムをもたらすことを示すための広範な実験を行い、その結果、より良い一般化をもたらす。
論文 参考訳(メタデータ) (2022-06-17T00:18:51Z) - Knowledge Distillation Meets Open-Set Semi-Supervised Learning [69.21139647218456]
本研究では,事前学習した教師から対象学生へ,表現的知識を意味的に蒸留する新しいモデル名(bfem shortname)を提案する。
問題レベルでは、これは知識蒸留とオープンセット半教師付き学習(SSL)との興味深い関係を確立する。
我々のショートネームは、粗い物体分類と微妙な顔認識タスクの両方において、最先端の知識蒸留法よりもかなり優れている。
論文 参考訳(メタデータ) (2022-05-13T15:15:27Z) - On the benefits of knowledge distillation for adversarial robustness [53.41196727255314]
知識蒸留は, 対向ロバスト性において, 最先端モデルの性能を高めるために直接的に利用できることを示す。
本稿では,モデルの性能向上のための新しいフレームワークであるAdversarial Knowledge Distillation (AKD)を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:02:13Z) - Dynamic Rectification Knowledge Distillation [0.0]
ダイナミック・リクティフィケーション・ナレッジ蒸留(DR-KD)は、知識蒸留の枠組みである。
DR-KDは生徒を自身の教師に転換し、自己学習者が情報を蒸留しながら誤った予測を行った場合、知識が蒸留される前に誤りが修正される。
提案するDR-KDは, 複雑な教師モデルが存在しない場合, 極めて良好に機能する。
論文 参考訳(メタデータ) (2022-01-27T04:38:01Z) - Annealing Knowledge Distillation [5.396407687999048]
教師のソフトターゲットから得られる豊富な情報を段階的かつ効率的にフィードバックし、知識蒸留法(アニーリングKD)の改善を提案します。
本稿では,Anaaling-KD法の有効性を裏付ける理論的および実証的な証拠と実用的実験を含む。
論文 参考訳(メタデータ) (2021-04-14T23:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。