論文の概要: Dynamic Temperature Scheduler for Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2511.13767v1
- Date: Fri, 14 Nov 2025 16:03:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.698464
- Title: Dynamic Temperature Scheduler for Knowledge Distillation
- Title(参考訳): 知識蒸留のための動的温度スケジューリング
- Authors: Sibgat Ul Islam, Jawad Ibn Ahad, Fuad Rahman, Mohammad Ruhul Amin, Nabeel Mohammed, Shafin Rahman,
- Abstract要約: 知識蒸留(KD)は、大規模で訓練済みの教師モデルを用いて、より小さな学生モデルを訓練する。
伝統的な方法は訓練を通して一定の温度を使い、それは準最適である。
本研究では,教師と学生のクロスエントロピー損失ギャップに基づいて動的に温度を調整する動的温度スケジューリングシステム(DTS)を導入する。
- 参考スコア(独自算出の注目度): 8.855130508913513
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Knowledge Distillation (KD) trains a smaller student model using a large, pre-trained teacher model, with temperature as a key hyperparameter controlling the softness of output probabilities. Traditional methods use a fixed temperature throughout training, which is suboptimal. Moreover, architectural differences between teacher and student often result in mismatched logit magnitudes. We demonstrate that students benefit from softer probabilities early in training but require sharper probabilities in later stages. We introduce Dynamic Temperature Scheduler (DTS), which adjusts temperature dynamically based on the cross-entropy loss gap between teacher and student. To our knowledge, this is the first temperature scheduling method that adapts based on the divergence between teacher and student distributions. Our method integrates seamlessly with existing KD frameworks. We validate DTS across multiple KD strategies on vision (CIFAR-100, Tiny-ImageNet) and NLP tasks (GLUE, Dolly, SelfIns, UnNI, S-NI), consistently outperforming static-temperature baselines. Code is available at https://github.com/Sibgat-Ul/DTS.
- Abstract(参考訳): 知識蒸留(KD)は、大規模で訓練済みの教師モデルを用いて、出力確率の柔らかさを制御するキーハイパーパラメーターとして、より小さな学生モデルを訓練する。
伝統的な方法は訓練を通して一定の温度を使い、それは準最適である。
さらに、教師と学生の建築上の違いは、しばしば不一致のロジット等級をもたらす。
訓練の早い段階ではよりソフトな確率の恩恵を受けるが、後期ではよりシャープな確率を必要とすることが実証された。
本研究では,教師と学生のクロスエントロピー損失ギャップに基づいて動的に温度を調整する動的温度スケジューリングシステム(DTS)を導入する。
我々の知る限り、これは教師と学生の分布のばらつきに基づいて適応する最初の温度スケジューリング手法である。
本手法は既存のKDフレームワークとシームレスに統合する。
我々は、視覚上の複数のKD戦略(CIFAR-100, Tiny-ImageNet)とNLPタスク(GLUE, Dolly, SelfIns, UnNI, S-NI)にまたがるDTSを検証する。
コードはhttps://github.com/Sibgat-Ul/DTSで入手できる。
関連論文リスト
- LLM-Oriented Token-Adaptive Knowledge Distillation [64.08412563818662]
本稿では,各トークンのリアルタイム学習状態に蒸留プロセスを適用する新しいフレームワークを提案する。
AdaKDは、2つの相乗的加群からなる。
プラグアンドプレイフレームワークとして、AdaKDは複数のモデルアーキテクチャやベンチマーク上で様々な蒸留方法の性能を一貫して向上させることができる。
論文 参考訳(メタデータ) (2025-10-13T16:55:07Z) - Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。
UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-04-19T14:08:56Z) - Warmup-Distill: Bridge the Distribution Mismatch between Teacher and Student before Knowledge Distillation [84.38105530043741]
本稿では, 学生の蒸留を教員の蒸留と整合させて, 蒸留に先立って行うワームアップ蒸留法を提案する。
7つのベンチマークの実験は、ウォームアップ・ディスティルが蒸留に適したウォームアップの学生を提供することを示した。
論文 参考訳(メタデータ) (2025-02-17T12:58:12Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Instance Temperature Knowledge Distillation [15.095465128404161]
既存の学習方法は、学生ネットワークが様々な学習困難に適応できるように、動的に温度調整を行う。
本稿では,温度調整を逐次意思決定タスクとして定式化し,強化学習に基づく手法を提案する。
我々のフレームワークは、様々なKDメソッドに簡単に挿入できるプラグイン・アンド・プレイ技術として機能する。
論文 参考訳(メタデータ) (2024-06-27T14:00:05Z) - Dynamic Temperature Knowledge Distillation [9.6046915661065]
知識蒸留(KD)領域におけるラベルソフトネスの調整における温度の役割
従来のアプローチでは、KDプロセス全体を通して静的な温度を用いることが多い。
本研究では,教師モデルと学生モデルの両方に対して,動的かつ協調的な温度制御を同時に導入する動的温度知識蒸留(DTKD)を提案する。
論文 参考訳(メタデータ) (2024-04-19T08:40:52Z) - Temperature Balancing, Layer-wise Weight Analysis, and Neural Network
Training [58.20089993899729]
本稿では,直感的で効果的な階層学習手法であるTempBalanceを提案する。
我々は、TempBalanceが通常のSGDと注意深く調整されたスペクトルノルム正規化より著しく優れていることを示す。
また、TempBalanceは最先端のメトリクスやスケジューラよりも優れています。
論文 参考訳(メタデータ) (2023-12-01T05:38:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。