論文の概要: Distillation Traps and Guards: A Calibration Knob for LLM Distillability
- arxiv url: http://arxiv.org/abs/2604.18963v1
- Date: Tue, 21 Apr 2026 01:22:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.563542
- Title: Distillation Traps and Guards: A Calibration Knob for LLM Distillability
- Title(参考訳): 蒸留トラップとガード:LLM蒸留性のための校正ノブ
- Authors: Weixiao Zhan, Yongcheng Jing, Leszek Rutkowski, Dacheng Tao,
- Abstract要約: そこで本研究では,教師の蒸留性を制御するためのポストホック校正法を提案する。
我々の目標は、タスクユーティリティ、KLアンカー、およびクロストケナイザーキャリブレーション報酬を組み合わせることである。
実験により、蒸留可能な教師から蒸留した学生は、SFTおよびKDベースラインを上回っていることが示された。
- 参考スコア(独自算出の注目度): 54.90137955363471
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation (KD) transfers capabilities from large language models (LLMs) to smaller students, yet it can fail unpredictably and also underpins model leakage risks. Our analysis revealed several distillation traps: tail noise, off-policy instability, and, most fundamentally, the teacher-student gap, that distort training signals. These traps manifest as overconfident hallucinations, self-correction collapse, and local decoding degradation, causing distillation to fail. Motivated by these findings, we propose a post-hoc calibration method that, to the best of our knowledge, for the first time enables control over a teacher's distillability via reinforcement fine-tuning (RFT). Our objective combines task utility, KL anchor, and across-tokenizer calibration reward. This makes distillability a practical safety lever for foundation models, connecting robust teacher-student transfer with deployment-aware model protection. Experiments across math, knowledge QA, and instruction-following tasks show that students distilled from distillable calibrated teachers outperform SFT and KD baselines, while undistillable calibrated teachers retain their task performance but cause distilled students to collapse, offering a practical knob for both better KD and model IP protection.
- Abstract(参考訳): 知識蒸留(KD)は、大規模言語モデル(LLM)から小規模の学生へ能力伝達するが、予測不能に失敗し、モデル漏洩のリスクを弱める可能性がある。
分析の結果,尾の騒音,非政治的不安定性,教師と学生のギャップ,訓練信号の歪曲など,いくつかの蒸留トラップが明らかになった。
これらのトラップは、過信の幻覚、自己補正崩壊、局所デコード劣化として現れ、蒸留が失敗する。
これらの知見に感化されて,本研究では,教師の蒸留度をRFT(Regress fine-tuning)で制御できる,ポストホックキャリブレーション法を提案する。
我々の目標は、タスクユーティリティ、KLアンカー、およびクロストケナイザーキャリブレーション報酬を組み合わせることである。
これにより、蒸留性は基礎モデルの実用的な安全レバーとなり、ロバストな教師学生の移動と配置対応モデル保護を結びつける。
数学、知識QA、教示フォロータスクによる実験では、蒸留可能な校正された教師から蒸留された生徒は、SFTとKDのベースラインを上回り、蒸留不可能な校正された教師はタスクのパフォーマンスを保ちながら、蒸留された学生を崩壊させ、KDとモデルIP保護の両方に実用的なノブを提供する。
関連論文リスト
- The Illusion of Certainty: Decoupling Capability and Calibration in On-Policy Distillation [67.26315138466312]
モデルロールアウトから経験的信頼性を推定するキャリブレーション対応のOPDフレームワークであるCaOPDを提案する。
本研究は, 能力蒸留が信頼性を示唆するものではないこと, 信頼性をポストトレーニングの本質的な目的として扱うべきであることを明らかにする。
論文 参考訳(メタデータ) (2026-04-18T04:43:40Z) - Reinforcement-aware Knowledge Distillation for LLM Reasoning [63.53679456364683]
強化学習(Reinforcement Learning, RL)ポストトレーニングは、最近、大型言語モデル(LLM)の長いチェーン・オブ・プリーティングにおいて、進歩をもたらした。
既存の知識蒸留法の多くは、教師による微調整(SFT)のために設計されており、固定された教師のトレースや教師の学生であるKulback-Leibler(KL)の発散に基づく正規化に依存している。
本稿では,RLにおける選択的な模倣を行うRL-aware distillation (RLAD)を提案する。
論文 参考訳(メタデータ) (2026-02-26T00:20:39Z) - REDistill: Robust Estimator Distillation for Balancing Robustness and Efficiency [0.0]
本稿では、ロバスト統計に基づく原則化されたフレームワークであるREDistillを紹介する。
レディスティルは標準のKD目標をKL分散の一般化であるパワー分散損失に置き換える。
CIFAR-100 と ImageNet-1k の実験では、REDistill は多様な教師/学生アーキテクチャにおける生徒の精度を一貫して向上することを示した。
論文 参考訳(メタデータ) (2026-02-04T15:50:53Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Robust Knowledge Distillation from RNN-T Models With Noisy Training
Labels Using Full-Sum Loss [32.816725317261934]
本研究は、知識蒸留(KD)を研究し、リカレントニューラルネットワークトランスデューサ(RNN-T)モデルに対する制約に対処する。
本研究は,RNN-Tモデルにおいて,系列レベルのKD,フルサム蒸留法が他の蒸留法よりも優れていることを示す。
また,教師の系列識別知識を蒸留し,WERのさらなる改善につながるフルサム蒸留の変種を提案する。
論文 参考訳(メタデータ) (2023-03-10T14:46:23Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - Knowledge Distillation as Semiparametric Inference [44.572422527672416]
モデル圧縮に対する一般的なアプローチは、安価な学生モデルを訓練して、高精度だが面倒な教師モデルのクラス確率を模倣する。
この2段階の知識蒸留プロセスは、しばしばラベル付きデータで直接学生を訓練するよりも高い精度をもたらす。
対象とする最適学生モデルを用いた半パラメトリック推定問題として知識蒸留を行い,未知ベイズ級確率を迷惑として,教師確率をプラグイン迷惑推定として用いた。
論文 参考訳(メタデータ) (2021-04-20T03:00:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。