論文の概要: TRACE: Distilling Where It Matters via Token-Routed Self On-Policy Alignment
- arxiv url: http://arxiv.org/abs/2605.10194v1
- Date: Mon, 11 May 2026 08:45:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.660752
- Title: TRACE: Distilling Where It Matters via Token-Routed Self On-Policy Alignment
- Title(参考訳): TRACE:Token-Routed Self On-Policy Alignmentを通じて重要な場所を蒸留する
- Authors: Jiaxuan Wang, Xuan Ouyang, Zhiyu Chen, Yulan Hu, Zheng Pan, Xin Li, Lan-Zhe Guo,
- Abstract要約: On-policy self-distillation (self-OPD)は、政策が特権的文脈下で自らを教えることによって、強化学習を検証可能な報酬(RLVR)で強化する。
本稿では, 注釈付き臨界スパンのみを蒸留する, 臨界rEasoning (TRACE) のためのToken-Routed Alignmentを提案する。
我々の分析では、TRACEは2つの効果によって説明されている: フォワードKLは、学生が下位に配置する教師支援トークンに対して、無消毒リフトを提供するが、マスキングと崩壊は累積特権-段階的露出を有限に保っている。
- 参考スコア(独自算出の注目度): 20.277178104190536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-policy self-distillation (self-OPD) densifies reinforcement learning with verifiable rewards (RLVR) by letting a policy teach itself under privileged context. We find that when this guidance spans the full response, all-token KL spends gradients on mostly redundant positions and amplifies privileged-information leakage, causing entropy rise, shortened reasoning, and out-of-distribution degradation in long-horizon math training. We propose Token-Routed Alignment for Critical rEasoning (TRACE), which distills only on annotator-marked critical spans: forward KL on key spans of correct rollouts, optional reverse KL on localized error spans, and GRPO on all remaining tokens, with the KL channel annealed away after a short warm-up. Our analysis explains TRACE through two effects: forward KL provides non-vanishing lift to teacher-supported tokens that the student under-allocates, while span masking and decay keep cumulative privileged-gradient exposure finite. On four held-out math benchmarks plus GPQA-Diamond, TRACE improves over GRPO by 2.76 percentage points on average and preserves the Qwen3-8B base OOD score on GPQA-Diamond, where GRPO and all-token self-OPD baselines degrade. Gains persist under online self-annotation (+1.90 percentage points, about 69% of the strong-API gain), reducing the concern that TRACE merely imports external annotator capability. Across scales, the best routed action is base-dependent: on Qwen3-8B it is forward KL on key spans, while on Qwen3-1.7B it shifts to reverse KL on error spans.
- Abstract(参考訳): On-policy self-distillation (self-OPD)は、政策が特権的文脈下で自らを教えることによって、強化学習を検証可能な報酬(RLVR)で強化する。
このガイダンスが全応答にまたがる場合、全トークンKLは、主に冗長な位置の勾配に費やし、特権情報漏洩を増幅し、エントロピーの上昇、推論の短縮、長距離数学トレーニングにおける分布外劣化を引き起こす。
token-Routed Alignment for critical rEasoning (TRACE) を提案する。これは、アノテータにマークされた臨界スパンのみを蒸留し、正しいロールアウトのキースパン上の前方KL、ローカライズされたエラースパン上のオプション逆KL、残りトークンのGRPO、短いウォームアップ後にKLチャネルが焼鈍される。
我々の分析では、TRACEは2つの効果によって説明されている: フォワードKLは、学生が下位に配置する教師支援トークンに対して、無消毒リフトを提供するが、マスキングと崩壊は累積特権-段階的露出を有限に保っている。
4つのベンチマークとGPQA-ダイアモンドで、TRACEはGRPOを平均2.76ポイント以上改善し、GPQA-ダイアモンドでQwen3-8BベースのOODスコアを保持する。
オンライン自己アノテーション(+1.90ポイント、強力なAPIゲインの約69%)の下でのゲインは継続し、TRACEが単に外部アノテータ機能をインポートしているという懸念を和らげる。
Qwen3-8Bではキースパンで前方KL、Qwen3-1.7Bではエラースパンで逆KLにシフトする。
関連論文リスト
- Unleashing Implicit Rewards: Prefix-Value Learning for Distribution-Level Optimization [74.91418266859297]
インプシットプロセス報酬モデル(PRM)は、推論プロセスに沿ってきめ細かな報酬信号を提供する。
トレーニングはシーケンスレベルの集約のみを制限しますが、推論はローカルステップの品質を反映するためにトークンレベルのスコアが必要です。
本稿では,予測精度を推定するプレフィックス条件付き値関数を直接学習する新しいインプリシット・プレフィックス・バリュー・リワード・モデル(IPVRM)を提案する。
また,サンプルトークンと高確率候補トークンの両方に対してTDの利点を演算する分散レベルRL(DistRL)を提案する。
論文 参考訳(メタデータ) (2026-04-14T18:19:54Z) - Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes [31.95045602299568]
オンライン蒸留(OPD)は,教師の学習履歴ではなく,学生が生み出すロールアウトに対するフィードバックを評価するため,大規模言語モデル(LLM)のポストトレーニングにアピールしている。
推定器と実装側からOPDを再検討する。
不均衡な1-token信号、学生が生成した接頭辞に対する教師の信頼できない指導、トークン化器や特殊-tokenミスマッチによる歪みの3つの失敗モードを同定する。
論文 参考訳(メタデータ) (2026-03-26T15:35:59Z) - EMA Policy Gradient: Taming Reinforcement Learning for LLMs with EMA Anchor and Top-k KL [19.463033284177087]
大規模言語モデル(LLM)の勾配ポリシーアルゴリズムを改善するための2つの手法を提案する。
まず、RL中の固定アンカーポリシーを指数移動平均(EMA)に置き換える。
第2に、正確なKLとサンプルKLのフレキシブルなTop-k KL推定器を導入する。
論文 参考訳(メタデータ) (2026-02-04T10:50:17Z) - On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning [59.11784194183928]
政策勾配アルゴリズムは大規模言語モデル(LLM)の推論能力の向上に成功している。
規則化されたポリシーグラディエント(RPG)ビューは、広く使われている$k_3$ペナルティが、正確には非正規化されたKLであることを示している。
RPG-REINFORCE with RPG-Style Clipは、DAPOよりも最大6ドル以上の絶対パーセンテージポイントの精度を向上させる。
論文 参考訳(メタデータ) (2025-05-23T06:01:21Z) - Generalized Kullback-Leibler Divergence Loss [105.66549870868971]
我々は、クルバック・リブラー(KL)の除算損失がデカップリングカルバック・リブラー(DKL)の除算損失と等価であることを証明した。
DKL損失の非結合構造により,我々は改善すべき2つの領域を特定した。
論文 参考訳(メタデータ) (2025-03-11T04:43:33Z) - Decoupled Kullback-Leibler Divergence Loss [90.54331083430597]
我々は、クルバック・リブラー(KL)の除算損失がデカップリングカルバック・リブラー(DKL)の除算損失と等価であることを証明した。
我々はKL/DKLにクラスワイドなグローバル情報を導入し、個々のサンプルからバイアスを取ります。
提案手法は,新たな最先端の対人ロバスト性を公衆のリーダーボード上で実現する。
論文 参考訳(メタデータ) (2023-05-23T11:17:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。