論文の概要: Teacher-Guided Student Self-Knowledge Distillation Using Diffusion Model
- arxiv url: http://arxiv.org/abs/2602.02107v1
- Date: Mon, 02 Feb 2026 13:52:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.180915
- Title: Teacher-Guided Student Self-Knowledge Distillation Using Diffusion Model
- Title(参考訳): 拡散モデルを用いた教師指導学生の自己学習蒸留
- Authors: Yu Wang, Chuanguang Yang, Zhulin An, Weilun Feng, Jiarui Zhao, Chengqing Yu, Libo Huang, Boyu Diao, Yongjun Xu,
- Abstract要約: 本稿では,DSKD と呼ばれる教師指導の学生 Diffusion Self-KD を提案する。
我々は,教師分類器を利用して,軽度拡散モデルを用いて生徒の特徴を識別するサンプリングプロセスを導出する。
生徒は教師の知識が特徴であり、教師の役割と見なすことができる。
- 参考スコア(独自算出の注目度): 35.920639111656534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing Knowledge Distillation (KD) methods often align feature information between teacher and student by exploring meaningful feature processing and loss functions. However, due to the difference in feature distributions between the teacher and student, the student model may learn incompatible information from the teacher. To address this problem, we propose teacher-guided student Diffusion Self-KD, dubbed as DSKD. Instead of the direct teacher-student alignment, we leverage the teacher classifier to guide the sampling process of denoising student features through a light-weight diffusion model. We then propose a novel locality-sensitive hashing (LSH)-guided feature distillation method between the original and denoised student features. The denoised student features encapsulate teacher knowledge and could be regarded as a teacher role. In this way, our DSKD method could eliminate discrepancies in mapping manners and feature distributions between the teacher and student, while learning meaningful knowledge from the teacher. Experiments on visual recognition tasks demonstrate that DSKD significantly outperforms existing KD methods across various models and datasets. Our code is attached in supplementary material.
- Abstract(参考訳): 既存の知識蒸留(KD)手法は、意味のある特徴処理と損失関数を探索することによって、教師と生徒の特徴情報を整列させることが多い。
しかし,教師と生徒の特徴分布の違いから,学生モデルは教師から不整合情報を学習することができる。
この問題に対処するために,DSKD と呼ばれる教師指導の学生 Diffusion Self-KD を提案する。
教師/学生の直接アライメントの代わりに,教師分類器を利用して,軽度拡散モデルを用いて生徒の特徴を識別するサンプリングプロセスを導出する。
そこで本研究では, 学生の特徴量と特徴量の間に, 局所感応性ハッシング(LSH)誘導型特徴蒸留法を提案する。
生徒は教師の知識をカプセル化しており、教師の役割と見なすことができる。
このようにして、DSKD法は、教師から有意義な知識を習得しながら、教師と生徒のマッピング方法や特徴分布の相違を取り除くことができる。
視覚認識タスクの実験は、DSKDが既存のKDメソッドを様々なモデルやデータセットで大幅に上回っていることを示している。
私たちのコードは補足資料に添付されています。
関連論文リスト
- Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Improving Knowledge Distillation with Teacher's Explanation [14.935696904019146]
本稿では,KED(Knowledge Explaining Distillation)フレームワークを紹介する。
KEDは、教師の予測だけでなく、教師の説明からも学べるようにしている。
様々なデータセットに対する実験により,KEDの学生はKDの学生と同じような複雑さを著しく上回る結果が得られた。
論文 参考訳(メタデータ) (2023-10-04T04:18:01Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。