論文の概要: Adaptive Teacher Exposure for Self-Distillation in LLM Reasoning
- arxiv url: http://arxiv.org/abs/2605.11458v1
- Date: Tue, 12 May 2026 03:15:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.542639
- Title: Adaptive Teacher Exposure for Self-Distillation in LLM Reasoning
- Title(参考訳): LLM推論における自己拡張のための適応型教師露光
- Authors: Zihao Han, Tiangang Zhang, Huaibin Wang, Yilun Sun,
- Abstract要約: そこで我々は, 自己蒸留を推論するための効果的な新しい軸として, 適応型教師曝露を提案する。
適応型自己蒸留(ATESD)は, 競争力のある自己蒸留とRLベースラインを一貫して上回ることを示す。
- 参考スコア(独自算出の注目度): 2.9029480541171107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-policy self-distillation has become a strong recipe for LLM reasoning, where a privileged teacher supervises the student's own rollouts while conditioning on the reference solution. A design choice shared by nearly all such methods, however, has gone unquestioned: the teacher always sees the full reference reasoning. We argue that this default itself is part of the problem and identify a teacher-side exposure mismatch: when the teacher conditions on reasoning far beyond the student's current competence, the resulting token targets become too strong to absorb. A controlled fixed-exposure sweep makes this concrete on two fronts: 1) full exposure is not reliably the best choice, and 2) student-teacher mismatch grows monotonically as the teacher sees more privileged reasoning. This motivates treating teacher exposure not as a fixed hyperparameter but as a learnable training-time control variable. We therefore propose Adaptive Teacher Exposure for Self-Distillation (ATESD). ATESD models the reveal ratio with a lightweight Beta-policy controller conditioned on compact training-state statistics, and uses one sampled exposure for a short hold window of student updates. To make this exposure controller learnable, we optimize it with a discounted learning-progress reward that scores each held decision by its effect on the student's future improvement rather than its immediate loss change, addressing the delayed credit assignment induced by on-policy distillation. Experiments on AIME 24, AIME 25, and HMMT 25 across Qwen3-{1.7B, 4B, 8B} show that ATESD consistently outperforms competitive self-distillation and RL baselines, improving over OPSD by +0.95, +2.05, and +2.33 Average@12 points respectively, and establishing adaptive teacher exposure as an effective new axis for reasoning self-distillation.
- Abstract(参考訳): オンライン自己蒸留は、LLM推論の強力なレシピとなり、特権教師は、参照ソリューションを条件付けながら、生徒自身のロールアウトを監督する。
しかし、そのような方法のほとんどすべてで共有される設計選択は、疑わしくなく、教師は常に完全な参照推論を見る。
我々は、このデフォルト自体が問題の一部であり、教師側の露出ミスマッチを特定する: 生徒の現在の能力を超えた推論に関する教師条件が、結果として生じるトークンターゲットが強すぎて吸収できない。
コントロールされた固定露光スイープは、このコンクリートを2つのフロントに配置します。
1)完全露光は、確実に最良の選択ではない。
2) 生徒と教師のミスマッチは,教師がより特権的な推論を見出すにつれて単調に成長する。
これにより、教師の露出を固定されたハイパーパラメータとしてではなく、学習可能なトレーニング時間制御変数として扱うことができる。
そこで我々は,自己蒸留(ATESD)のための適応型教師露光を提案する。
ATESDは、コンパクトなトレーニング状態統計に基づく軽量のベータポリシーコントローラで、学生更新のショートホールドウィンドウに1つのサンプル露光を使用する。
この露光制御を学習可能にするため, オンライン蒸留により誘導される遅延信用代入に対処するため, 学生の今後の改善に効果を生かして各決定をスコアするディスカウント学習プログレス報酬を用いて最適化を行う。
AIME 24 AIME 25 と HMMT 25 を Qwen3-{1.7B, 4B, 8B} で行った実験では、ATESD は競争力のある自己蒸留と RL ベースラインを一貫して上回り、OPSD を +0.95, +2.05, +2.33 Average@12 点で改善し、自己蒸留を推論するための効果的な新しい軸として適応的な教師露出を確立する。
関連論文リスト
- On-Policy Distillation with Best-of-N Teacher Rollout Selection [54.91780727674628]
本報告では, オンライン蒸留のためのベスト・オブ・Nロールアウト教員選抜フレームワークBRTSを提案する。
BRTSは、教師軌道から構築された教師コンテキスト管理ブランチで、標準の学生コンテキストOPDを強化する。
BRTSは、挑戦的な推論ベンチマークにおいて、標準的なPDよりも改善されており、より難しいデータセットに対して最大の利益がある。
論文 参考訳(メタデータ) (2026-05-10T19:49:00Z) - Prune-OPD: Efficient and Reliable On-Policy Distillation for Long-Horizon Reasoning [66.52232008796294]
Prune-OPDはトレーニング予算と監督品質を動的に調整する。
トレーニング時間を37.6%減らし-68.0%削減すると同時に、しばしば改善され、挑戦的なベンチマークのパフォーマンスが向上する。
論文 参考訳(メタデータ) (2026-05-08T14:38:53Z) - Preference-Based Self-Distillation: Beyond KL Matching via Reward Regularization [18.027254451537342]
既存の自己蒸留法は、文脈拡張型教師モデルに向けた学習をKLマッチングに大きく還元する。
textbfPreference-textbfBased textbfSelf-textbfDistillation (textbfPBSD)を提案する。
論文 参考訳(メタデータ) (2026-05-06T15:31:50Z) - TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents [55.27396165691312]
マルチターンエージェント設定におけるバニラOPDの鍵となる制限を,トラジェクトリレベルKL不安定(Trajectory-Level KL Instability)と呼ぶ。
学生に露出する軌道深度を制御し,カリキュラムのスケジュールを段階的に拡張するフレームワークであるTCODを提案する。
4組の生徒と教師のペアによる実験結果から,TCODはKLのエスカレーションを軽減し,トレーニングを通してKLの安定性を高め,バニラPDよりも最大18ポイントのエージェント性能を向上させることが示された。
論文 参考訳(メタデータ) (2026-04-27T03:38:27Z) - Distillation Traps and Guards: A Calibration Knob for LLM Distillability [54.90137955363471]
そこで本研究では,教師の蒸留性を制御するためのポストホック校正法を提案する。
我々の目標は、タスクユーティリティ、KLアンカー、およびクロストケナイザーキャリブレーション報酬を組み合わせることである。
実験により、蒸留可能な教師から蒸留した学生は、SFTおよびKDベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-04-21T01:22:35Z) - Uncertainty-Aware Knowledge Distillation for Multimodal Large Language Models [26.06143154557816]
知識蒸留は、データ監督と教師指導の両方を活用する学習パラダイムを確立する。
本研究では,教師の指導にどの程度依存しているかを規定する不確実性を考慮した蒸留フレームワークであるBeta-KDを提案する。
論文 参考訳(メタデータ) (2026-03-22T22:33:25Z) - Reinforcement-aware Knowledge Distillation for LLM Reasoning [63.53679456364683]
強化学習(Reinforcement Learning, RL)ポストトレーニングは、最近、大型言語モデル(LLM)の長いチェーン・オブ・プリーティングにおいて、進歩をもたらした。
既存の知識蒸留法の多くは、教師による微調整(SFT)のために設計されており、固定された教師のトレースや教師の学生であるKulback-Leibler(KL)の発散に基づく正規化に依存している。
本稿では,RLにおける選択的な模倣を行うRL-aware distillation (RLAD)を提案する。
論文 参考訳(メタデータ) (2026-02-26T00:20:39Z) - Explain in Your Own Words: Improving Reasoning via Token-Selective Dual Knowledge Distillation [4.517380184758914]
Token-Selective Dual Knowledge Distillation (TSD-KD) は、学生中心の蒸留の枠組みである。
TSD-KDは、推論のために重要なトークンを蒸留することに焦点を当て、学生に自身の言葉で推論を説明するよう促す。
論文 参考訳(メタデータ) (2026-02-25T09:58:49Z) - Logit Standardization in Knowledge Distillation [83.31794439964033]
教師と学生の共用温度の仮定は、ロジット範囲と分散の点で、ロジット間の厳密な一致を暗示している。
温度をロジットの重み付け標準偏差として設定し、ロジット標準化のプラグアンドプレイZスコア前処理を実行することを提案する。
我々の前処理により、学生はマグニチュードマッチを必要とせず、教師の本質的なロジット関係に集中することができ、既存のロジットベースの蒸留法の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-03-03T07:54:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。