Your Teacher Can't Help You Here: Combating Supervision Fidelity Decay in On-Policy Distillation
Abstractの概要
本論文は、推論モデル向けのオンポリシー蒸留における失敗モードを研究し、生徒が生成した軌跡に沿って教師の監督品質が低下すると論じている。著者らはこの現象を教師情報忠実度減衰(Supervision Fidelity Decay: SFD)と定義し、生徒のプレフィックスが長くなるにつれて、教師の次トークンの信頼度と下流タスクの補完精度の両方が低下することを経験的に示している。さらに、逆KL蒸留の理論的な分析を行い、拡散した教師の分布が修正勾配をより弱い生徒主導のシグナルへと崩壊させ、長時間の推論チェーンにわたってドリフトを悪化させると主張している。これを軽減するために、次のステップにおける教師の信頼度によって候補トークンをスコアリングし、このシグナルを効率指向のエントロピー・トリガー型ツリーアテンション機構を用いた標準的なオンポリシー蒸留に追加する、先読みグループ報酬(Lookahead Group Reward: LGR)を提案している。
新規性
本論文の主な新規性は、長時間の生成におけるパフォーマンスの低さを単なる最適化の問題として扱うのではなく、オンポリシー逆KL蒸留における位置依存の構造的な問題として、教師情報忠実度減衰を明示的に特徴付けている点である。また、ドリフトに晒された状況下でも有用な監督情報を維持するために教師の将来ステップの信頼度を利用する、1ステップ先読みのグループ正規化された信頼度報酬を導入している。
成果
6つの数学およびコードのベンチマークにおいて、LGRはOPD(On-Policy Distillation)と比較して、15億(1.5B)パラメータの生徒モデルでmean@8を1.61ポイント、70億(7B)パラメータの生徒モデルで2.57ポイント向上させている。最大生成長が長くなるほどその効果は大きくなり、39kトークンにおけるAIME-26での+4.92 mean@8の改善などが含まれ、学習の診断結果ではOPDよりも高い教師対数確率とより安定したエントロピーが示されている。
論文の注目点
- 著者らは、生徒が生成したプレフィックスが長くなるにつれて、教師の信頼度と補完の品質が低下し、逆KLの監督の有用性が弱まる「教師情報忠実度減衰(Supervision Fidelity Decay)」現象を特定した。
- LGRは、教師の次ステップのピーク確率を使用して上位K個の生徒トークン候補を評価し、候補グループ内で報酬を正規化し、主に高エントロピーの位置で追加の計算を活性化することで、この問題に対処している。
- 実験結果は、LGRが平均してOPDやその他の蒸留ベースラインを上回り、監督情報の減衰が最も激しい長い推論軌跡において最も顕著な改善が見られることを示している。