論文の概要: Trust the uncertain teacher: distilling dark knowledge via calibrated uncertainty
- arxiv url: http://arxiv.org/abs/2602.12687v1
- Date: Fri, 13 Feb 2026 07:43:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.882571
- Title: Trust the uncertain teacher: distilling dark knowledge via calibrated uncertainty
- Title(参考訳): 不確実な教師を信頼する:校正された不確実性を通して暗黒知識を蒸留する
- Authors: Jeonghyun Kim, SooKyung Kim, Richeng Xuan, Hyunsoo Cho,
- Abstract要約: Calibrated Uncertainty Distillation (CUD)は、暗黒の知識をより忠実に利用できるようにするためのフレームワークである。
我々のアプローチは精度と校正のバランスを保ち、生徒は自信のある信号とハードな信号に対する構造的不確実性の両方から恩恵を受けることができる。
- 参考スコア(独自算出の注目度): 14.807774290798482
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The core of knowledge distillation lies in transferring the teacher's rich 'dark knowledge'-subtle probabilistic patterns that reveal how classes are related and the distribution of uncertainties. While this idea is well established, teachers trained with conventional cross-entropy often fail to preserve such signals. Their distributions collapse into sharp, overconfident peaks that appear decisive but are in fact brittle, offering little beyond the hard label or subtly hindering representation-level transfer. This overconfidence is especially problematic in high-cardinality tasks, where the nuances among many plausible classes matter most for guiding a compact student. Moreover, such brittle targets reduce robustness under distribution shift, leaving students vulnerable to miscalibration in real-world conditions. To address this limitation, we revisit distillation from a distributional perspective and propose Calibrated Uncertainty Distillation (CUD), a framework designed to make dark knowledge more faithfully accessible. Instead of uncritically adopting the teacher's overconfidence, CUD encourages teachers to reveal uncertainty where it is informative and guides students to learn from targets that are calibrated rather than sharpened certainty. By directly shaping the teacher's predictive distribution before transfer, our approach balances accuracy and calibration, allowing students to benefit from both confident signals on easy cases and structured uncertainty on hard ones. Across diverse benchmarks, CUD yields students that are not only more accurate, but also more calibrated under shift and more reliable on ambiguous, long-tail inputs.
- Abstract(参考訳): 知識蒸留の核心は、教師の豊かな「暗黒の知識」を伝達することにある。
この考え方は確立されているが、従来のクロスエントロピーで訓練された教師はそのような信号を保存するのに失敗することが多い。
分布は急激で自信過剰なピークに崩壊し、決定的に見えるが実際には脆く、硬いラベル以上のものを提供したり、表現レベルの移動をわずかに妨げたりするものはほとんどない。
この過度な自信は、多くの有望なクラスにおけるニュアンスが、コンパクトな学生を導く上で最も重要である、高心力のタスクにおいて特に問題となる。
さらに、そのような不安定なターゲットは、分布シフト時の堅牢性を低下させ、学生は現実世界の状況下での誤校正に弱いままである。
この制限に対処するため、我々は、流通の観点から蒸留を再考し、暗黒知識をより忠実に利用できるようにするためのフレームワークであるキャリブレーション不確かさ蒸留(CUD)を提案する。
教師の過度な自信を非批判的に取り入れる代わりに、CUDは教師に情報のある場所で不確実性を明らかにするように促し、生徒に確実性を高めるのではなく、校正対象から学ぶよう指導する。
移動前に教師の予測分布を直接形成することにより、精度と校正のバランスを保ち、生徒は容易なケースに対する自信とハードケースに対する構造的不確実性の両方を享受できる。
多様なベンチマークを通じて、CUDはより正確であるだけでなく、シフトの下で校正され、曖昧で長い尾の入力をより信頼性の高い学生を生み出す。
関連論文リスト
- Enriching Knowledge Distillation with Cross-Modal Teacher Fusion [4.704107417683679]
複数教師の知識蒸留(KD)は、専門教師からロジットや特徴マッチングを用いて、コンパクトな学生モデルに知識を伝達する。
従来の教師のロジットや特徴をCLIPと融合する,シンプルで効果的なフレームワークを提案する。
分析の結果,教師の自信と信頼度は向上し,信頼度は著しく向上し,信頼度は低下した。
論文 参考訳(メタデータ) (2025-11-12T12:50:15Z) - Revisiting Confidence Estimation: Towards Reliable Failure Prediction [53.79160907725975]
多くの信頼度推定法は誤分類誤りを検出するのに有害である。
本稿では, 最先端の故障予測性能を示す平坦な最小値を求めることにより, 信頼性ギャップを拡大することを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:44:14Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - Improving the Robustness of Distantly-Supervised Named Entity Recognition via Uncertainty-Aware Teacher Learning and Student-Student Collaborative Learning [24.733773208117363]
自己学習段階における偽ラベルの誤りを減らすために,不確かさを意識した教師学習を提案する。
また、2つの学生ネットワーク間で信頼性の高いラベルを転送できる学生・学生協調学習を提案する。
提案手法を5つのDS-NERデータセット上で評価し,提案手法が最先端のDS-NER手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-14T09:09:58Z) - Faithful Knowledge Distillation [75.59907631395849]
i) 教師と学生は、正しく分類されたデータセットのサンプルに近い点で意見が一致しないか、(ii) 蒸留した学生は、データセットのサンプルに関する教師と同じくらい自信があるか、という2つの重要な質問に焦点をあてる。
これらは、安全クリティカルな設定の中で、堅牢な教師から訓練された小さな学生ネットワークを配置することを考えると、重要な問題である。
論文 参考訳(メタデータ) (2023-06-07T13:41:55Z) - On student-teacher deviations in distillation: does it pay to disobey? [54.908344098305804]
知識蒸留は「学生」ネットワークのテスト精度を向上させるために広く用いられている。
教師の確率に合うように訓練されているにもかかわらず、生徒は教師の確率から大きく逸脱するだけでなく、パフォーマンスにおいて教師を上回ることもある。
論文 参考訳(メタデータ) (2023-01-30T14:25:02Z) - Adam: Dense Retrieval Distillation with Adaptive Dark Examples [104.01735794498767]
本稿では,教師が持つ暗黒知識を適応暗黒エクストリームで伝達する知識蒸留フレームワークであるADAMを提案する。
2つの広く利用されているベンチマークで実験を行い、本手法の有効性を検証する。
論文 参考訳(メタデータ) (2022-12-20T12:03:19Z) - MDFlow: Unsupervised Optical Flow Learning by Reliable Mutual Knowledge
Distillation [12.249680550252327]
現在のアプローチでは、継続的な自己スーパービジョンの強化正則化項が課せられている。
本稿では,教師と学生のネットワーク間で信頼ある知識を相互に伝達する新たな相互蒸留フレームワークを提案する。
我々のアプローチはMDFlowと呼ばれ、挑戦的なベンチマーク上で最先端のリアルタイム精度と一般化能力を実現する。
論文 参考訳(メタデータ) (2022-11-11T05:56:46Z) - Learning Domain Adaptive Object Detection with Probabilistic Teacher [93.76128726257946]
確率的教師(PT)と呼ばれる,シンプルで効果的な枠組みを提案する。
PTは、段階的に進化する教師から未ラベルの目標データの不確実性を捉え、相互に有利な方法で生徒の学習を指導することを目的としている。
また,不確実性誘導型自己学習を促進するために,新しいエントロピー・フォカル・ロス(EFL)を提案する。
論文 参考訳(メタデータ) (2022-06-13T16:24:22Z) - Credal Self-Supervised Learning [0.0]
未ラベルのインスタンスに対して,学習者が"擬似スーパービジョン"を生成する方法を示す。
整合性正規化と組み合わせて、擬似ラベルは様々な領域で有望な性能を示している。
我々は、我々の方法論を最先端のセルフスーパービジョンアプローチと比較する。
論文 参考訳(メタデータ) (2021-06-22T15:19:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。