論文の概要: Your Teacher Can't Help You Here: Combating Supervision Fidelity Decay in On-Policy Distillation
- arxiv url: http://arxiv.org/abs/2605.30833v1
- Date: Fri, 29 May 2026 04:39:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.389261
- Title: Your Teacher Can't Help You Here: Combating Supervision Fidelity Decay in On-Policy Distillation
- Title(参考訳): 教師はお役に立てない: オンライン蒸留におけるスーパービジョンの忠実度低下を論じる
- Authors: Yanjiang Liu, Jie Lou, Xinyan Guan, Yuqiu Ji, Hongyu Lin, Ben He, Xianpei Han, Le Sun, Xing Yu, Yaojie Lu,
- Abstract要約: オンライン蒸留は,教師からのトークンレベルのフィードバックを用いて,学生モデルを自作の軌道上で訓練することにより,推論能力を伝達する。
生徒が生成した接頭辞が長くなるにつれて、教師の次点の分布は自信を減らし、差別性が低下する。
SFDを緩和するため, textbfLookahead Group Reward (ours) を導入する。
- 参考スコア(独自算出の注目度): 81.10000755917712
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-policy distillation transfers reasoning capabilities by training a student model on its own generated trajectories using token-level feedback from a teacher. However, we identify a critical bottleneck, \textbf{Supervision Fidelity Decay (SFD)}: as student-generated prefixes lengthen, the teacher's next-token distribution becomes less confident and less discriminative. Consequently, the teacher-dependent corrective signal in reverse-KL distillation weakens, causing student drift to compound across long reasoning chains. To mitigate SFD, we introduce \textbf{Lookahead Group Reward (\ours{})}. Building on the insight that next-step teacher confidence reflects the discriminative strength of future reverse-KL supervision, \ours{} evaluates the student's top-K candidate tokens by the teacher confidence they induce at the subsequent step and assigns a group-normalized reward. To maintain computational efficiency, we further design an entropy-triggered tree-attention mechanism. Across six math and code benchmarks, \ours{} improves mean@8 by \textbf{2.57} points over OPD for a 7B student, with gains increasing in longer-generation and reaching +\textbf{4.92} points on AIME-26 at 39k tokens.
- Abstract(参考訳): オンライン蒸留は,教師からのトークンレベルのフィードバックを用いて,学生モデルを自作の軌道上で訓練することにより,推論能力を伝達する。
しかし, 批判的ボトルネックである「textbf{Supervision Fidelity Decay (SFD)」は, 学生が生成する接頭辞が長引くにつれ, 教師の次点分布の信頼性が低下し, 差別性が低下する。
その結果、逆KL蒸留における教師依存の補正シグナルは弱まり、学生は長い推論鎖を行き来する。
SFDを緩和するために、 \textbf{Lookahead Group Reward (\ours{})} を導入する。
次段階教師の信頼度は、将来の逆KL監督の差別的強みを反映しているという知見に基づいて、 \ours{} は、次のステップで誘導される教師の信頼度によって、学生の上位K候補トークンを評価し、グループ正規化された報酬を割り当てる。
計算効率を維持するため,エントロピートリガーツリーアテンション機構をさらに設計する。
6つの数学とコードのベンチマークで、 \ours{} は 7B の学生に対して OPD よりも textbf{2.57} で mean@8 を改善し、AIME-26 で 39k のトークンで +\textbf{4.92} に到達した。
関連論文リスト
- Not All Disagreement Is Learnable: Token Teachability in On-Policy Distillation [28.572361799234784]
生のKL不一致が学習価値の粗いプロキシであることを示す。
我々はこの局所的な互換性をトークンの教育可能性として定式化する。
軽量なトークン配置選択法であるTeachability-Aware OPDを提案する。
論文 参考訳(メタデータ) (2026-05-26T10:56:46Z) - Prefix Teach, Suffix Fade: Local Teachability Collapse in Strong-to-Weak On-Policy Distillation [49.117085054884676]
オンライン蒸留は、より強い教師からの強いフィードバックを使って、学生モデルを独自のロールアウトで訓練する。
我々は、この原則を軌跡固有のリリースルールで運用する。
強弱蒸留作業による実験結果から, この放出規則は標準全軌道PDよりも一貫して優れていたことが示唆された。
論文 参考訳(メタデータ) (2026-05-13T15:05:30Z) - Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information [22.436966302243565]
本稿では,学生と教師の相違を増す反自己蒸留法を提案する。
AntiSDはGRPOベースラインの精度を2倍から10倍にし、最終精度を最大11.5ポイント向上させる。
論文 参考訳(メタデータ) (2026-05-12T06:40:43Z) - On-Policy Distillation with Best-of-N Teacher Rollout Selection [54.91780727674628]
本報告では, オンライン蒸留のためのベスト・オブ・Nロールアウト教員選抜フレームワークBRTSを提案する。
BRTSは、教師軌道から構築された教師コンテキスト管理ブランチで、標準の学生コンテキストOPDを強化する。
BRTSは、挑戦的な推論ベンチマークにおいて、標準的なPDよりも改善されており、より難しいデータセットに対して最大の利益がある。
論文 参考訳(メタデータ) (2026-05-10T19:49:00Z) - Prune-OPD: Efficient and Reliable On-Policy Distillation for Long-Horizon Reasoning [66.52232008796294]
Prune-OPDはトレーニング予算と監督品質を動的に調整する。
トレーニング時間を37.6%減らし-68.0%削減すると同時に、しばしば改善され、挑戦的なベンチマークのパフォーマンスが向上する。
論文 参考訳(メタデータ) (2026-05-08T14:38:53Z) - TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents [55.27396165691312]
マルチターンエージェント設定におけるバニラOPDの鍵となる制限を,トラジェクトリレベルKL不安定(Trajectory-Level KL Instability)と呼ぶ。
学生に露出する軌道深度を制御し,カリキュラムのスケジュールを段階的に拡張するフレームワークであるTCODを提案する。
4組の生徒と教師のペアによる実験結果から,TCODはKLのエスカレーションを軽減し,トレーニングを通してKLの安定性を高め,バニラPDよりも最大18ポイントのエージェント性能を向上させることが示された。
論文 参考訳(メタデータ) (2026-04-27T03:38:27Z) - Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes [31.95045602299568]
オンライン蒸留(OPD)は,教師の学習履歴ではなく,学生が生み出すロールアウトに対するフィードバックを評価するため,大規模言語モデル(LLM)のポストトレーニングにアピールしている。
推定器と実装側からOPDを再検討する。
不均衡な1-token信号、学生が生成した接頭辞に対する教師の信頼できない指導、トークン化器や特殊-tokenミスマッチによる歪みの3つの失敗モードを同定する。
論文 参考訳(メタデータ) (2026-03-26T15:35:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。