論文の概要: How Is Uncertainty Propagated in Knowledge Distillation?
- arxiv url: http://arxiv.org/abs/2601.18909v1
- Date: Mon, 26 Jan 2026 19:18:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.04108
- Title: How Is Uncertainty Propagated in Knowledge Distillation?
- Title(参考訳): 知識蒸留における不確かさの伝播
- Authors: Ziyao Cui, Jian Pei,
- Abstract要約: 3つの代表的なモデルクラスにわたる知識蒸留を通して不確実性がいかに伝播するかを示す。
複数の教師の回答を平均化する分散対応戦略と,教師と学生の見積を組み合わせた分散重み付けという2つの戦略を導入する。
これらの結果から,教師の不確実性を反映した分散型蒸留により,より安定した学生が生まれることが示唆された。
- 参考スコア(独自算出の注目度): 7.132728938560163
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation transfers behavior from a teacher to a student model, but the process is inherently stochastic: teacher outputs, student training, and student inference can all be random. Collapsing these uncertainties to a single point estimate can distort what is learned. We systematically study how uncertainty propagates through knowledge distillation across three representative model classes--linear regression, feed-forward neural networks, and large language models (LLMs)--and propose simple corrections. We distinguish inter-student uncertainty (variance across independently distilled students) from intra-student uncertainty (variance of a single student's predictive distribution), showing that standard single-response knowledge distillation suppresses intra-student variance while leaving substantial inter-student variability. To address these mismatches, we introduce two variance-aware strategies: averaging multiple teacher responses, which reduces noise at rate $O(1/k)$, and variance-weighting, which combines teacher and student estimates via inverse-variance weighting to yield a minimum-variance estimator. We provide formal guarantees in linear regression, validate the methods in neural networks, and demonstrate empirical gains in LLM distillation, including reduced systematic noise and hallucination. These results reframe knowledge distillation as an uncertainty transformation and show that variance-aware distillation produces more stable students that better reflect teacher uncertainty.
- Abstract(参考訳): 知識蒸留は教師から学生モデルへの振る舞いを伝達するが、その過程は本質的に確率的であり、教師のアウトプット、学生のトレーニング、学生の推論は全てランダムである。
これらの不確実性を単一点推定に分解すると、何を学んだかが歪む。
本研究では, 線形回帰, フィードフォワードニューラルネットワーク, 大規模言語モデル (LLMs) の3つのモデルにまたがる知識蒸留により, 不確実性がいかに伝播するかを系統的に検討し, 簡単な補正を提案する。
本研究では,学生間不確実性(学生間での分散)と学生内不確実性(学生の予測分布のばらつき)を区別し,標準の単一応答型知識蒸留は学生間不確実性を維持しつつ,学生内不確実性を抑制することを示す。
これらのミスマッチに対処するために、教師の反応を平均化してO(1/k)$のノイズを低減させる分散対応戦略と、逆分散重み付けにより教師と学生の見積もりを結合して最小分散推定器を生成する分散重み付けという2つの分散対応戦略を導入する。
我々は線形回帰の形式的保証を提供し、ニューラルネットワークの手法を検証し、系統的なノイズや幻覚の低減を含むLLM蒸留における経験的利得を実証する。
これらの結果は, 知識蒸留を不確実性変換として再編成し, 分散を考慮した蒸留により, 教師の不確実性を反映した安定した学生が生まれることを示した。
関連論文リスト
- Knowledge Distillation of Uncertainty using Deep Latent Factor Model [10.148306002388196]
ガウス蒸留と呼ばれる新しい流通蒸留法を導入する。
これは、Dep Latent Factor Model (DLF)と呼ばれる特殊なガウス過程による教師のアンサンブルの分布を推定する。
複数のベンチマークデータセットを用いて,提案したガウス蒸留が既存のベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2025-10-22T06:46:59Z) - Efficient Uncertainty in LLMs through Evidential Knowledge Distillation [3.864321514889099]
性能を犠牲にすることなく,LLMの効率的かつ効果的な不確実性評価を可能にする新しい手法を提案する。
我々は、不確実性を考慮した教師モデルを、同じアーキテクチャを共有するコンパクトな学生モデルに蒸留するが、Lo-Rank Adaptation (LoRA)を用いて微調整する。
分類データセットに関する実証的な評価は、そのような学生が同等または優れた予測的・不確実性定量化性能を達成できることを証明している。
論文 参考訳(メタデータ) (2025-07-24T12:46:40Z) - Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。
UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-04-19T14:08:56Z) - Balance Divergence for Knowledge Distillation [5.971722196386694]
既存の知識蒸留法の多くは、教師ネットワークと学生ネットワーク間のロジット出力確率を模倣するために、Kulback-Leibler分散を用いる。
この欠損は蒸留過程でのロジットの模倣において最適以下の性能をもたらす可能性がある。
本稿では,バランス分散蒸留法という新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-14T03:12:25Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Selective Nonparametric Regression via Testing [54.20569354303575]
本研究では,所定の点における条件分散の値に関する仮説を検証し,留置手順を開発する。
既存の手法とは異なり、提案手法は分散自体の値だけでなく、対応する分散予測器の不確実性についても考慮することができる。
論文 参考訳(メタデータ) (2023-09-28T13:04:11Z) - ProBoost: a Boosting Method for Probabilistic Classifiers [55.970609838687864]
ProBoostは確率的分類器のための新しいブースティングアルゴリズムである。
各トレーニングサンプルの不確実性を使用して、最も困難で不確実なものを決定する。
これは、最も不確実性が高いと判明したサンプルに徐々に焦点をあてる配列を生成する。
論文 参考訳(メタデータ) (2022-09-04T12:49:20Z) - Knowledge Distillation as Semiparametric Inference [44.572422527672416]
モデル圧縮に対する一般的なアプローチは、安価な学生モデルを訓練して、高精度だが面倒な教師モデルのクラス確率を模倣する。
この2段階の知識蒸留プロセスは、しばしばラベル付きデータで直接学生を訓練するよりも高い精度をもたらす。
対象とする最適学生モデルを用いた半パラメトリック推定問題として知識蒸留を行い,未知ベイズ級確率を迷惑として,教師確率をプラグイン迷惑推定として用いた。
論文 参考訳(メタデータ) (2021-04-20T03:00:45Z) - Regularizing Class-wise Predictions via Self-knowledge Distillation [80.76254453115766]
類似サンプル間の予測分布を解析する新しい正規化法を提案する。
これにより、単一のネットワークの暗黒知識(すなわち誤った予測に関する知識)を規則化する。
画像分類タスクにおける実験結果から, 単純だが強力な手法が一般化能力を大幅に向上することを示した。
論文 参考訳(メタデータ) (2020-03-31T06:03:51Z) - Knowledge distillation via adaptive instance normalization [52.91164959767517]
本稿では,教師から生徒への特徴統計の伝達に基づく新しい知識蒸留法を提案する。
本手法は,教師に類似する生徒の平均と分散を強制する標準的な方法を超えている。
以上の結果から, 蒸留法は他の蒸留法よりも高い性能を示した。
論文 参考訳(メタデータ) (2020-03-09T17:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。