論文の概要: SGD-Based Knowledge Distillation with Bayesian Teachers: Theory and Guidelines
- arxiv url: http://arxiv.org/abs/2601.01484v1
- Date: Sun, 04 Jan 2026 11:09:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.432891
- Title: SGD-Based Knowledge Distillation with Bayesian Teachers: Theory and Guidelines
- Title(参考訳): ベイズ教師によるSGDに基づく知識蒸留:理論とガイドライン
- Authors: Itai Morad, Nir Shlezinger, Yonina C. Eldar,
- Abstract要約: 知識蒸留(英: Knowledge Distillation, KD)は、大きな教師ネットワークから、しばしばソフト確率出力を利用して、より小さな学生モデルに知識を伝達する中心的なパラダイムである。
グラディエント・Descent (SGD) を訓練した学生の収束行動の厳密に分析する。
分析の結果,BCPからの学習は分散の低減と収束境界の近傍項の除去に寄与することがわかった。
これらの知見に触発されて、我々は、通常、KDの教師として、BCPの見積もりを改善するベイズ深層学習モデルの使用を提唱する。
- 参考スコア(独自算出の注目度): 82.00660447875266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge Distillation (KD) is a central paradigm for transferring knowledge from a large teacher network to a typically smaller student model, often by leveraging soft probabilistic outputs. While KD has shown strong empirical success in numerous applications, its theoretical underpinnings remain only partially understood. In this work, we adopt a Bayesian perspective on KD to rigorously analyze the convergence behavior of students trained with Stochastic Gradient Descent (SGD). We study two regimes: $(i)$ when the teacher provides the exact Bayes Class Probabilities (BCPs); and $(ii)$ supervision with noisy approximations of the BCPs. Our analysis shows that learning from BCPs yields variance reduction and removes neighborhood terms in the convergence bounds compared to one-hot supervision. We further characterize how the level of noise affects generalization and accuracy. Motivated by these insights, we advocate the use of Bayesian deep learning models, which typically provide improved estimates of the BCPs, as teachers in KD. Consistent with our analysis, we experimentally demonstrate that students distilled from Bayesian teachers not only achieve higher accuracies (up to +4.27%), but also exhibit more stable convergence (up to 30% less noise), compared to students distilled from deterministic teachers.
- Abstract(参考訳): 知識蒸留(英: Knowledge Distillation, KD)は、大きな教師ネットワークから、しばしばソフト確率出力を利用して、より小さな学生モデルに知識を伝達する中心的なパラダイムである。
KDは多くの応用において強い経験的成功を示しているが、その理論的基盤は部分的にしか理解されていない。
本研究では,SGD (Stochastic Gradient Descent) を用いて学習した学生の収束行動の厳密に分析するために,KDに対するベイズ的視点を採用する。
私たちは2つの制度を研究します。
(i)$は、教師が正確にベイズクラス確率(BCP)を提供するとき、そして$
(二)BCPの騒音近似による監督
分析の結果,BCPからの学習は分散の低減と収束境界の近傍項の除去に寄与することがわかった。
さらに、雑音のレベルが一般化と精度にどのように影響するかを特徴付ける。
これらの知見に触発されて、我々は、通常、KDの教師として、BCPの見積もりを改善するベイズ深層学習モデルの使用を提唱する。
分析の結果,ベイズ教師から抽出した学生は,高い精度(+4.27%)を達成できただけでなく,より安定した収束(最大30%のノイズ)を示した。
関連論文リスト
- Biased Teacher, Balanced Student [0.0]
Long-Tailed Knowledge Distillation (LTKD)は、クラス不均衡シナリオに適した新しいフレームワークである。
CIFAR-100-LT、TinyImageNet-LT、ImageNet-LTの実験は、LTKDが既存のKDメソッドより一貫して優れていることを示している。
論文 参考訳(メタデータ) (2025-06-23T10:46:44Z) - How to Train the Teacher Model for Effective Knowledge Distillation [0.3495246564946556]
MSE損失を伴う教師モデルの訓練は、MSEの出力とBCPDの最小化に等しい。
クロスエントロピーの損失で訓練された教師を、最先端のKD手法でMSEの損失で訓練した教師に置き換えることによって、学生の精度は一貫して向上する。
論文 参考訳(メタデータ) (2024-07-25T13:39:11Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - Faithful Knowledge Distillation [75.59907631395849]
i) 教師と学生は、正しく分類されたデータセットのサンプルに近い点で意見が一致しないか、(ii) 蒸留した学生は、データセットのサンプルに関する教師と同じくらい自信があるか、という2つの重要な質問に焦点をあてる。
これらは、安全クリティカルな設定の中で、堅牢な教師から訓練された小さな学生ネットワークを配置することを考えると、重要な問題である。
論文 参考訳(メタデータ) (2023-06-07T13:41:55Z) - Grouped Knowledge Distillation for Deep Face Recognition [53.57402723008569]
軽量の学生ネットワークは、モデル容量が低いため、ターゲットロジットの適合が困難である。
一次KDと二元KDを保持するが、最終的なKD損失計算では二次KDを省略するグループ知識蒸留(GKD)を提案する。
論文 参考訳(メタデータ) (2023-04-10T09:04:38Z) - On student-teacher deviations in distillation: does it pay to disobey? [54.908344098305804]
知識蒸留は「学生」ネットワークのテスト精度を向上させるために広く用いられている。
教師の確率に合うように訓練されているにもかかわらず、生徒は教師の確率から大きく逸脱するだけでなく、パフォーマンスにおいて教師を上回ることもある。
論文 参考訳(メタデータ) (2023-01-30T14:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。