論文の概要: A Unified Revisit of Temperature in Classification-Based Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2603.02430v1
- Date: Mon, 02 Mar 2026 22:16:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.561617
- Title: A Unified Revisit of Temperature in Classification-Based Knowledge Distillation
- Title(参考訳): 分類に基づく知識蒸留における温度の統一的再検討
- Authors: Logan Frank, Jim Davis,
- Abstract要約: 知識蒸留の中心的な考え方は、生徒が学ぶための教師の重みに埋め込まれた構造を明らかにすることである。
広く使われているにもかかわらず、適切な温度値を選択する方法についての理解は限られている。
実際には、温度はグリッドサーチまたは以前の作業の値を採用することで、一般的に選択される。
- 参考スコア(独自算出の注目度): 8.594140167290098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A central idea of knowledge distillation is to expose relational structure embedded in the teacher's weights for the student to learn, which is often facilitated using a temperature parameter. Despite its widespread use, there remains limited understanding on how to select an appropriate temperature value, or how this value depends on other training elements such as optimizer, teacher pretraining/finetuning, etc. In practice, temperature is commonly chosen via grid search or by adopting values from prior work, which can be time-consuming or may lead to suboptimal student performance when training setups differ. In this work, we posit that temperature is closely linked to these training components and present a unified study that systematically examines such interactions. From analyzing these cross-connections, we identify and present common situations that have a pronounced impact on temperature selection, providing valuable guidance for practitioners employing knowledge distillation in their work.
- Abstract(参考訳): 知識蒸留の中心的な考え方は、教師の重みに埋め込まれた関係構造を、学生が学ぶために露出させることである。
広く使われているにもかかわらず、適切な温度値を選択する方法や、この値がオプティマイザや教師の事前訓練/ファインタニングなどの他のトレーニング要素に依存するかについては、まだ理解が限られている。
実際には、温度はグリッドサーチや、事前の作業から値を採用することで選択されることが多い。
本研究では,これらのトレーニングコンポーネントに温度が密接な関係があることを仮定し,このようなインタラクションを体系的に検討する統一的研究を提案する。
これらの相互接続の分析から, 温度選択に顕著な影響を及ぼす一般的な状況を特定し, 提示し, 知識蒸留を実践する実践者にとって貴重なガイダンスを提供する。
関連論文リスト
- Knowledge Distillation with Training Wheels [15.153745235245287]
授業中に教師から学習する知識蒸留のための,より一般的な枠組みを定式化する。
制約付き強化学習を用いてこれを、テストタイム参照として教師モデルを使用するフレームワークに拡張する。
論文 参考訳(メタデータ) (2025-02-24T23:17:52Z) - Warmup-Distill: Bridge the Distribution Mismatch between Teacher and Student before Knowledge Distillation [84.38105530043741]
本稿では, 学生の蒸留を教員の蒸留と整合させて, 蒸留に先立って行うワームアップ蒸留法を提案する。
7つのベンチマークの実験は、ウォームアップ・ディスティルが蒸留に適したウォームアップの学生を提供することを示した。
論文 参考訳(メタデータ) (2025-02-17T12:58:12Z) - Dynamic Temperature Knowledge Distillation [9.6046915661065]
知識蒸留(KD)領域におけるラベルソフトネスの調整における温度の役割
従来のアプローチでは、KDプロセス全体を通して静的な温度を用いることが多い。
本研究では,教師モデルと学生モデルの両方に対して,動的かつ協調的な温度制御を同時に導入する動的温度知識蒸留(DTKD)を提案する。
論文 参考訳(メタデータ) (2024-04-19T08:40:52Z) - Logit Standardization in Knowledge Distillation [83.31794439964033]
教師と学生の共用温度の仮定は、ロジット範囲と分散の点で、ロジット間の厳密な一致を暗示している。
温度をロジットの重み付け標準偏差として設定し、ロジット標準化のプラグアンドプレイZスコア前処理を実行することを提案する。
我々の前処理により、学生はマグニチュードマッチを必要とせず、教師の本質的なロジット関係に集中することができ、既存のロジットベースの蒸留法の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-03-03T07:54:03Z) - Faithful Knowledge Distillation [75.59907631395849]
i) 教師と学生は、正しく分類されたデータセットのサンプルに近い点で意見が一致しないか、(ii) 蒸留した学生は、データセットのサンプルに関する教師と同じくらい自信があるか、という2つの重要な質問に焦点をあてる。
これらは、安全クリティカルな設定の中で、堅牢な教師から訓練された小さな学生ネットワークを配置することを考えると、重要な問題である。
論文 参考訳(メタデータ) (2023-06-07T13:41:55Z) - Tailoring Instructions to Student's Learning Levels Boosts Knowledge Distillation [52.53446712834569]
LGTM(Learning Good Teacher Matters)は,教師の学習プロセスに蒸留の影響を組み込むための効果的な訓練手法である。
我々のLGTMはGLUEベンチマークで6つのテキスト分類タスクに基づいて10の共通知識蒸留基準を上回ります。
論文 参考訳(メタデータ) (2023-05-16T17:50:09Z) - On student-teacher deviations in distillation: does it pay to disobey? [54.908344098305804]
知識蒸留は「学生」ネットワークのテスト精度を向上させるために広く用いられている。
教師の確率に合うように訓練されているにもかかわらず、生徒は教師の確率から大きく逸脱するだけでなく、パフォーマンスにおいて教師を上回ることもある。
論文 参考訳(メタデータ) (2023-01-30T14:25:02Z) - Supervision Complexity and its Role in Knowledge Distillation [65.07910515406209]
蒸留した学生の一般化行動について検討する。
この枠組みは、教師の精度、教師の予測に対する生徒の差、教師の予測の複雑さの間の微妙な相互作用を強調している。
オンライン蒸留の有効性を実証し,様々な画像分類ベンチマークとモデルアーキテクチャに関する理論的知見を検証した。
論文 参考訳(メタデータ) (2023-01-28T16:34:47Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。