論文の概要: Skill-Conditioned Gated Self-Distillation for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2605.28791v1
- Date: Wed, 27 May 2026 17:49:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.257053
- Title: Skill-Conditioned Gated Self-Distillation for LLM Reasoning
- Title(参考訳): LLMリゾネートのためのスキルコンディションゲート型自己蒸留法
- Authors: Jiazhen Huang, Xiao Chen, Xiao Luo, Yong Dai, Senkang Hu, Yuzhi Zhao,
- Abstract要約: SD(On-policy Self-distillation)は、教師側特権情報(PI)を用いて、スパース検証結果を高密度トークンレベルの監視に変換することにより、LCM推論を改善する。
本研究では,非条件模擬ではなく,教師の仮説検証としてスキルベースSDを定式化するスキルコンディション付きゲート型自己蒸留(SGSD)を提案する。
- 参考スコア(独自算出の注目度): 22.02868419200851
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-policy self-distillation (SD) improves LLM reasoning by using teacher-side privileged information (PI) to turn sparse verifier outcomes into dense token-level supervision. Existing methods usually assume trusted PI, such as reference answers or successful traces. We ask whether PI can instead come from an experience-derived skill bank, where retrieved skills are compact and reusable but may also be irrelevant or misleading. We propose Skill-Conditioned Gated Self-Distillation (SGSD), which formulates skill-based SD as teacher hypothesis validation rather than unconditional imitation. SGSD retrieves skill-mistake pairs, constructs a multi-teacher pool, and lets all skill-conditioned teachers score the same plain-prompt student rollout. The verifier validates each teacher's polarity: supporting a success or suppressing a failure gives positive supervision, while the opposite stance is reversed. A robust gated objective then distills informative teacher-student disagreements while suppressing uncertain or extreme signals. Experiments on multiple mathematical reasoning benchmarks show that SGSD consistently improves over GRPO and remains competitive with answer-conditioned OPSD under a weaker PI assumption. For example, on Qwen3-1.7B, SGSD outperforms GRPO by 6.2% and OPSD by 1.7% on average on AIME24, AIME25, and HMMT25. Our code is available at https://github.com/walawalagoose/SGSD.
- Abstract(参考訳): SD(On-policy Self-distillation)は、教師側特権情報(PI)を用いて、スパース検証結果を高密度トークンレベルの監視に変換することにより、LCM推論を改善する。
既存のメソッドは通常、参照応答や成功したトレースなど、信頼できるPIを仮定する。
PIは、取得したスキルがコンパクトで再利用可能であるが、無関係あるいは誤解を招く可能性がある、経験に基づくスキルバンクから得られるかどうかを問う。
本研究では,非条件模擬ではなく,教師の仮説検証としてスキルベースSDを定式化するスキルコンディション付きゲート型自己蒸留(SGSD)を提案する。
SGSDはスキルミスのペアを回収し、マルチ教師プールを構築し、すべてのスキル条件の教師が同じ素早い学生のロールアウトを得点できるようにする。
検証者は、各教師の極性を検証する:成功を支持するか、失敗を抑えるかは、正の監督を与えるが、反対の姿勢は逆である。
堅固な接頭辞の目的は、不確実な信号や極端な信号を抑制しながら、情報的な教師と学生の意見の不一致を蒸留する。
複数の数学的推論ベンチマークの実験により、SGSDはGRPOよりも一貫して改善され、より弱いPI仮定の下で回答条件付きOPSDと競合し続けていることが示されている。
例えば、Qwen3-1.7Bでは、SGSDはGRPOを6.2%、OPSDを1.7%上回っている。
私たちのコードはhttps://github.com/walawalagoose/SGSD.comで利用可能です。
関連論文リスト
- When Are Teacher Tokens Reliable? Position-Weighted On-Policy Self-Distillation for Reasoning [45.79647925282674]
On-policy Self-distillation (OPSD) は、特権教師を使って生徒を自身のロールアウトで訓練する。
既存のエントロピーに基づくPD手法は、教師エントロピーによるトークンレベルの監督を調節することで、この一様性を緩和する。
そこで我々は,PW-OPSD(Pight-Weighted On-Policy Self-Distillation)を提案する。
論文 参考訳(メタデータ) (2026-05-20T18:14:03Z) - Self-Distilled Agentic Reinforcement Learning [65.24201057390938]
自己蒸留型エージェント強化学習は、トークンレベルの信号をシグモノイドゲートにマップする。
SDARはモデルスケール全体のハイブリッドRL--OPSDベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-05-14T17:51:26Z) - Prefix Teach, Suffix Fade: Local Teachability Collapse in Strong-to-Weak On-Policy Distillation [49.117085054884676]
オンライン蒸留は、より強い教師からの強いフィードバックを使って、学生モデルを独自のロールアウトで訓練する。
我々は、この原則を軌跡固有のリリースルールで運用する。
強弱蒸留作業による実験結果から, この放出規則は標準全軌道PDよりも一貫して優れていたことが示唆された。
論文 参考訳(メタデータ) (2026-05-13T15:05:30Z) - Teacher-Guided Policy Optimization for LLM Distillation [90.49982387646861]
Teacher-Guided Policy Optimization (TGPO) は、生徒のロールアウトに条件付き教師予測を活用することで、高密度な方向性誘導を取り入れたオンラインアルゴリズムである。
複雑な推論ベンチマークの実験では、TGPOは標準ベースラインを著しく上回り、異なる教師にとって堅牢であることが示されている。
論文 参考訳(メタデータ) (2026-05-13T09:20:03Z) - OGLS-SD: On-Policy Self-Distillation with Outcome-Guided Logit Steering for LLM Reasoning [19.98950359294245]
本研究は,教師の特権分布を自己の自給自足軌道に沿って蒸留することにより,言語モデルによる推論能力の向上を図ることを目的とする。
OPSDの性能向上にもかかわらず,教師と生徒の反応のミスマッチがよく見過ごされがちである。
論文 参考訳(メタデータ) (2026-05-12T17:00:53Z) - Adaptive Teacher Exposure for Self-Distillation in LLM Reasoning [2.9029480541171107]
そこで我々は, 自己蒸留を推論するための効果的な新しい軸として, 適応型教師曝露を提案する。
適応型自己蒸留(ATESD)は, 競争力のある自己蒸留とRLベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-05-12T03:15:58Z) - The Many Faces of On-Policy Distillation: Pitfalls, Mechanisms, and Fixes [10.319573084070578]
オンライン蒸留(OPD)とオンライン自己蒸留(OPSD)は,大規模言語モデルのための有望なポストトレーニング手法として出現している。
我々は、OPDとOPSDがいつ機能するか、いつ機能しないのか、なぜ機能しないのかについて、総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2026-05-11T19:44:59Z) - On-Policy Distillation with Best-of-N Teacher Rollout Selection [54.91780727674628]
本報告では, オンライン蒸留のためのベスト・オブ・Nロールアウト教員選抜フレームワークBRTSを提案する。
BRTSは、教師軌道から構築された教師コンテキスト管理ブランチで、標準の学生コンテキストOPDを強化する。
BRTSは、挑戦的な推論ベンチマークにおいて、標準的なPDよりも改善されており、より難しいデータセットに対して最大の利益がある。
論文 参考訳(メタデータ) (2026-05-10T19:49:00Z) - Prune-OPD: Efficient and Reliable On-Policy Distillation for Long-Horizon Reasoning [66.52232008796294]
Prune-OPDはトレーニング予算と監督品質を動的に調整する。
トレーニング時間を37.6%減らし-68.0%削減すると同時に、しばしば改善され、挑戦的なベンチマークのパフォーマンスが向上する。
論文 参考訳(メタデータ) (2026-05-08T14:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。