論文の概要: Tailoring Teaching to Aptitude: Direction-Adaptive Self-Distillation for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2605.22263v1
- Date: Thu, 21 May 2026 10:07:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.202398
- Title: Tailoring Teaching to Aptitude: Direction-Adaptive Self-Distillation for LLM Reasoning
- Title(参考訳): LLM推論のための方向性適応型自己蒸留法
- Authors: Hongbin Zhang, Chaozheng Wang, Kehai Chen, Youcheng Pan, Yang Xiang, Jinpeng Wang, Min Zhang,
- Abstract要約: 我々は,一様教師模倣からエントロピー制御された指向性監視へと特権的な自己蒸留を再構成するtextbfDirection-Adaptive Self-Distillation (textbfDASD)を提案する。
6つの数学的推論ベンチマークで、DASDは強力なRLVRと自己蒸留ベースラインよりも優れたマクロAvg@16を達成する。
- 参考スコア(独自算出の注目度): 41.384652481442735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-policy self-distillation (OPSD) is an emerging LLM post-training paradigm in which the model serves as its own teacher: conditioned on privileged information such as a reference trace or hint, the same policy provides dense token-level supervision on its own rollouts. However, recent studies show that OPSD degrades complex reasoning by suppressing predictive uncertainty, which supports exploration and hypothesis revision. Our token-level analysis shows that this failure arises from applying a uniform direction of teacher supervision across tokens with different uncertainty levels: conformity to the privileged self-teacher suppresses exploration at high entropy, while deviation from the teacher degrades step accuracy at low entropy. Accordingly, we propose \textbf{Direction-Adaptive Self-Distillation} (\textbf{DASD}), which reframes privileged self-distillation from uniform teacher imitation into entropy-routed directional supervision: high-entropy tokens are pushed away from the privileged teacher to preserve exploration, while low-entropy tokens are pulled toward the teacher to stabilize step-level execution. Across six mathematical reasoning benchmarks, DASD achieves the best macro Avg@16 over strong RLVR and self-distillation baselines. Pass@$k$, reasoning-health, and generalization analyses show that these average gains come from preserving exploration without sacrificing step-level execution.
- Abstract(参考訳): オンライン自己蒸留(英: On-policy Self-distillation、OPSD)は、モデルが自身の教師として機能する、新たなLCMポストトレーニングパラダイムである。
しかし、最近の研究では、OPSDは、探索と仮説修正を支援する予測の不確実性を抑えることによって、複雑な推論を劣化させることが示されている。
トークンレベルの分析では,教師の指導の均一な方向を異なる不確実性レベルに当てはめることで,教師からの偏差は低いエントロピーでステップ精度を低下させる一方で,特権的自己指導者への適合性は高いエントロピーでの探索を抑制することが示されている。
そこで我々は,一様教師模倣からエントロピー制御された指向性指導への特権的自己蒸留を再構成し,高エントロピートークンを特権教師から引き離して探索を保ちつつ,低エントロピートークンを教師に向かって引き抜いて段階レベルの実行を安定させるような,‘textbf{Direction-Adaptive Self-Distillation}’(\textbf{DASD})を提案する。
6つの数学的推論ベンチマークで、DASDは強力なRLVRと自己蒸留ベースラインよりも優れたマクロAvg@16を達成する。
Pass@k$, reasoning-health, and generalization analysisによると、これらの平均的な利益は、ステップレベルの実行を犠牲にすることなく、探索を保存することによるものである。
関連論文リスト
- AMR-SD: Asymmetric Meta-Reflective Self-Distillation for Token-Level Credit Assignment [39.63424981516754]
非対称メタ反射型自己蒸留(AMR-SD)
非対称なReLUゲートしきい値を持つ因果情報ゲイン(CIG)を導入し、これらの反射をスパースで高精度なトークンレベルの利点変調に変換する。
科学的、数学的、ツール使用のベンチマークによる実験は、AMR-SDが既存のベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2026-05-18T15:14:34Z) - Prefix Teach, Suffix Fade: Local Teachability Collapse in Strong-to-Weak On-Policy Distillation [49.117085054884676]
オンライン蒸留は、より強い教師からの強いフィードバックを使って、学生モデルを独自のロールアウトで訓練する。
我々は、この原則を軌跡固有のリリースルールで運用する。
強弱蒸留作業による実験結果から, この放出規則は標準全軌道PDよりも一貫して優れていたことが示唆された。
論文 参考訳(メタデータ) (2026-05-13T15:05:30Z) - Respecting Self-Uncertainty in On-Policy Self-Distillation for Efficient LLM Reasoning [43.9367673156851]
オンライン自己蒸留は、教師が密集したトークンレベルの監督を提供する間、独自のロールアウトで推論モデルを訓練する。
トークンレベルの更新を3つの信号で統一するEGRSD(Entropy-Guided Reinforced Self-Distillation)を提案する。
CL-EGRSDは、持続する高エントロピースパンと過渡的な高エントロピー位置を区別する因果関係の変種である。
論文 参考訳(メタデータ) (2026-05-13T09:38:20Z) - Teacher-Guided Policy Optimization for LLM Distillation [90.49982387646861]
Teacher-Guided Policy Optimization (TGPO) は、生徒のロールアウトに条件付き教師予測を活用することで、高密度な方向性誘導を取り入れたオンラインアルゴリズムである。
複雑な推論ベンチマークの実験では、TGPOは標準ベースラインを著しく上回り、異なる教師にとって堅牢であることが示されている。
論文 参考訳(メタデータ) (2026-05-13T09:20:03Z) - OGLS-SD: On-Policy Self-Distillation with Outcome-Guided Logit Steering for LLM Reasoning [19.98950359294245]
本研究は,教師の特権分布を自己の自給自足軌道に沿って蒸留することにより,言語モデルによる推論能力の向上を図ることを目的とする。
OPSDの性能向上にもかかわらず,教師と生徒の反応のミスマッチがよく見過ごされがちである。
論文 参考訳(メタデータ) (2026-05-12T17:00:53Z) - Self-Distilled RLVR [57.37526213765131]
特権教師からのみ派生した学習信号が,情報漏洩と不安定な長期学習をもたらすことを示す。
textbfSelf-textbfDistillationを用いたtextbfRLSD(textbfRLVR)を提案する。
これにより、RSSDはRLVRとOPSDの両方の強度を同時に利用でき、高い収束天井と優れたトレーニング安定性を実現することができる。
論文 参考訳(メタデータ) (2026-04-03T15:50:07Z) - Hindsight-Anchored Policy Optimization: Turning Failure into Feedback in Sparse Reward Settings [7.554296968064274]
検証リワード(RLVR)を用いた強化学習のための階層型ポリシー最適化(HAPO)を提案する。
HAPOは、障害時に教師のデモンストレーションに最適化を選択的にアンカーする、後ろ向きのメカニズムを採用している。
HAPOは,政策改善に伴う教師の信号のアニールを自然に行うことで,非バイアスのオン・ポリティクス勾配を回復する。
論文 参考訳(メタデータ) (2026-03-11T21:33:41Z) - KEPO: Knowledge-Enhanced Preference Optimization for Reinforcement Learning with Reasoning [24.072603982041798]
強化学習は、大規模言語や視覚言語モデルにおいて、明示的な推論行動を引き起こすための有望なパラダイムとして登場した。
しかしながら、推論指向のRLポストトレーニングは、低軌道レベルの報酬のため、基本的には困難である。
近年のオンライン蒸留法では,教師の集中管理によって最適化の安定化が図られている。
論文 参考訳(メタデータ) (2026-01-30T23:28:37Z) - Improving Self-supervised Learning with Automated Unsupervised Outlier
Arbitration [83.29856873525674]
本稿では,自己教師型学習のためのビューサンプリング問題を対象とした,軽量潜在変数モデル UOTA を提案する。
本手法は,多くの主流な自己指導型学習手法に直接応用する。
論文 参考訳(メタデータ) (2021-12-15T14:05:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。