論文の概要: Knowledge Distillation of Uncertainty using Deep Latent Factor Model
- arxiv url: http://arxiv.org/abs/2510.19290v2
- Date: Fri, 24 Oct 2025 01:47:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.236893
- Title: Knowledge Distillation of Uncertainty using Deep Latent Factor Model
- Title(参考訳): 深部潜伏因子モデルを用いた不確かさの知識蒸留
- Authors: Sehyun Park, Jongjin Lee, Yunseop Shin, Ilsang Ohn, Yongdai Kim,
- Abstract要約: ガウス蒸留と呼ばれる新しい流通蒸留法を導入する。
これは、Dep Latent Factor Model (DLF)と呼ばれる特殊なガウス過程による教師のアンサンブルの分布を推定する。
複数のベンチマークデータセットを用いて,提案したガウス蒸留が既存のベースラインより優れていることを示す。
- 参考スコア(独自算出の注目度): 10.148306002388196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep ensembles deliver state-of-the-art, reliable uncertainty quantification, but their heavy computational and memory requirements hinder their practical deployments to real applications such as on-device AI. Knowledge distillation compresses an ensemble into small student models, but existing techniques struggle to preserve uncertainty partly because reducing the size of DNNs typically results in variation reduction. To resolve this limitation, we introduce a new method of distribution distillation (i.e. compressing a teacher ensemble into a student distribution instead of a student ensemble) called Gaussian distillation, which estimates the distribution of a teacher ensemble through a special Gaussian process called the deep latent factor model (DLF) by treating each member of the teacher ensemble as a realization of a certain stochastic process. The mean and covariance functions in the DLF model are estimated stably by using the expectation-maximization (EM) algorithm. By using multiple benchmark datasets, we demonstrate that the proposed Gaussian distillation outperforms existing baselines. In addition, we illustrate that Gaussian distillation works well for fine-tuning of language models and distribution shift problems.
- Abstract(参考訳): ディープアンサンブルは最先端で信頼性の高い不確実性定量化を提供するが、その重い計算とメモリ要件は、デバイス上のAIのような実際のアプリケーションへの実践的なデプロイを妨げる。
知識蒸留は、小さな学生モデルにアンサンブルを圧縮するが、既存の技術は、DNNのサイズが小さくなるため、不確実性を維持するのに苦慮している。
この制限を解消するために,教師のアンサンブルを学生のアンサンブルではなく生徒のアンサンブルに圧縮するガウス蒸留法(ガウス蒸留法)を導入し,特定の確率過程の実現として教師アンサンブルの各メンバーを扱い,特定のガウス的プロセス(DLF)と呼ばれる特別なガウス的プロセスを通じて教師アンサンブルの分布を推定する。
DLFモデルの平均と共分散関数は、期待最大化(EM)アルゴリズムを用いて安定に推定される。
複数のベンチマークデータセットを用いて,提案したガウス蒸留が既存のベースラインより優れていることを示す。
さらに,ガウス蒸留が言語モデルの微調整や分布シフト問題に有効であることを示す。
関連論文リスト
- Don't Ignore the Tail: Decoupling top-K Probabilities for Efficient Language Model Distillation [50.19746127327559]
教師モデルのトップK予測確率と低確率予測確率の寄与を分離する新しいテールアウェア分岐を提案する。
実験により, 改良蒸留法は, デコーダモデルの事前学習と教師付き蒸留の両方において, 競争性能を発揮することが示された。
論文 参考訳(メタデータ) (2026-02-24T11:54:06Z) - Decoupled DMD: CFG Augmentation as the Spear, Distribution Matching as the Shield [54.328202401611264]
拡散モデル蒸留は、効率的な数段・単段発生装置を作るための強力な技術として登場した。
数段蒸留の原動力は分布一致ではなく,これまで見過ごされていた成分であるCFG増量 (CFG Augmentation, CA) であることを示す。
本稿では, エンジンとレギュレータのノイズスケジュールを分離するなど, 蒸留工程の原理的な修正を提案し, 更なる性能向上を実現した。
論文 参考訳(メタデータ) (2025-11-27T18:24:28Z) - Information Theoretic Learning for Diffusion Models with Warm Start [8.455757095201314]
雑音駆動モデルに対してより厳密な確率境界が導出され、最大確率学習の精度と効率が向上する。
我々の重要な洞察は、古典的なKL分散フィッシャー情報関係を任意のノイズ摂動に拡張する。
拡散過程をガウスチャネルとして扱うことにより,提案した対象上界が負対数類似度(NLL)であることを示す。
論文 参考訳(メタデータ) (2025-10-23T18:00:59Z) - Why Knowledge Distillation Works in Generative Models: A Minimal Working Explanation [53.30082523545212]
知識蒸留(KD)は、現代の生産モデルの訓練と展開における中核的な要素である。
我々は,KDが学生モデルにおける精度とリコールのトレードオフを引き起こすことを示す。
本分析は、生成モデルにおけるKDの有効性について、単純かつ一般的な説明を提供する。
論文 参考訳(メタデータ) (2025-05-19T13:39:47Z) - Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。
UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-04-19T14:08:56Z) - Reward-Directed Score-Based Diffusion Models via q-Learning [8.725446812770791]
生成AIのための連続時間スコアベース拡散モデルのトレーニングのための新しい強化学習(RL)法を提案する。
ノイズ摂動データ分布の未知のスコア関数に対する事前学習モデルは含まない。
本稿では,その性能を2つの最先端RL法と比較することにより,本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-09-07T13:55:45Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Broadening Target Distributions for Accelerated Diffusion Models via a Novel Analysis Approach [49.97755400231656]
本研究では,新しいDDPMサンプリング器が,これまで考慮されていなかった3種類の分散クラスに対して高速化性能を実現することを示す。
この結果から, DDPM型加速サンプリング器におけるデータ次元$d$への依存性が改善された。
論文 参考訳(メタデータ) (2024-02-21T16:11:47Z) - Neural Operator Variational Inference based on Regularized Stein Discrepancy for Deep Gaussian Processes [22.256068524699472]
本稿では,深いガウス過程に対するニューラル演算子変分推論(NOVI)を提案する。
NOVIは、ニューラルジェネレータを使用してサンプリング装置を取得し、生成された分布と真の後部の間のL2空間における正規化スタインの離散性を最小化する。
提案手法が提案するバイアスは定数で発散を乗算することで制御可能であることを示す。
論文 参考訳(メタデータ) (2023-09-22T06:56:35Z) - On-Policy Distillation of Language Models: Learning from Self-Generated
Mistakes [44.97759066341107]
一般知識蒸留(GKD)は、教師からのフィードバックを活用して、学生を自己生成出力シーケンスで訓練する。
本稿では,自動回帰言語モデルの要約,翻訳,算術的推論におけるGKDの有効性を示す。
論文 参考訳(メタデータ) (2023-06-23T17:56:26Z) - Training Discrete Deep Generative Models via Gapped Straight-Through
Estimator [72.71398034617607]
再サンプリングのオーバーヘッドを伴わずに分散を低減するため, GST (Gapped Straight-Through) 推定器を提案する。
この推定子は、Straight-Through Gumbel-Softmaxの本質的な性質に着想を得たものである。
実験により,提案したGST推定器は,2つの離散的な深部生成モデリングタスクの強いベースラインと比較して,優れた性能を享受できることが示された。
論文 参考訳(メタデータ) (2022-06-15T01:46:05Z) - Learning Generative Models using Denoising Density Estimators [29.068491722778827]
縮退密度推定器(DDE)に基づく新しい生成モデルを提案する。
我々の主な貢献は、KL分割を直接最小化することで生成モデルを得る新しい技術である。
実験結果から, 生成モデル学習における密度推定と競争性能が大幅に向上した。
論文 参考訳(メタデータ) (2020-01-08T20:30:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。