論文の概要: Self-Distilled Policy Gradient
- arxiv url: http://arxiv.org/abs/2606.04036v1
- Date: Tue, 02 Jun 2026 02:31:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.255497
- Title: Self-Distilled Policy Gradient
- Title(参考訳): 自己蒸留政策のグラディエント
- Authors: Yifeng Liu, Shiyuan Zhang, Yifan Zhang, Quanquan Gu,
- Abstract要約: 都市の自己蒸留は、スパース・リワード強化学習のための密集した監督源として有望である。
SDPGは,グループ相対検証の利点と正規化標準偏差を組み合わせた,自己蒸留型政策段階のフレームワークである。
- 参考スコア(独自算出の注目度): 51.95967256628261
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-policy self-distillation, where a language model conditions on privileged context to supervise its own generations, is a promising source of dense supervision for sparse-reward reinforcement learning. Actually, it can be instantiated as an auxiliary full-vocabulary student-to-teacher reverse Kullback-Leibler divergence loss. We therefore propose SDPG, a self-distilled policy-gradient framework that combines group-relative verifier advantages with normalized standard deviation, exact full-vocabulary on-policy self-distillation, as well as reference-policy KL regularization. Empirically, SDPG improves stability and performance over RLVR and self-distillation baselines. The code is available at https://github.com/lauyikfung/SDPG.
- Abstract(参考訳): 特権的文脈における言語モデル条件が、自身の世代を監督するオン・ポリティクス自己蒸留は、スパース・リワード強化学習のための厳密な監督源として有望である。
実際には、補助的なフルボキャブラリの学生対教師が、Kulback-Leibler分散損失を逆転するものとしてインスタンス化することができる。
そこで我々は,グループ相対検証の利点と正規化標準偏差,正確な完全語彙オン政治自己蒸留,および参照ポリティクスKL正則化を組み合わせた自己蒸留型政策段階フレームワークSDPGを提案する。
SDPGは、RLVRと自己蒸留ベースラインの安定性と性能を実証的に改善する。
コードはhttps://github.com/lauyikfung/SDPGで公開されている。
関連論文リスト
- Tailoring Teaching to Aptitude: Direction-Adaptive Self-Distillation for LLM Reasoning [41.384652481442735]
我々は,一様教師模倣からエントロピー制御された指向性監視へと特権的な自己蒸留を再構成するtextbfDirection-Adaptive Self-Distillation (textbfDASD)を提案する。
6つの数学的推論ベンチマークで、DASDは強力なRLVRと自己蒸留ベースラインよりも優れたマクロAvg@16を達成する。
論文 参考訳(メタデータ) (2026-05-21T10:07:46Z) - One-Way Policy Optimization for Self-Evolving LLMs [63.8638342097375]
RLVR(Reinforcement Learning with Verifiable Rewards)は,Large Language Models(LLMs)の推論能力を拡張するための,有望なパラダイムとなっている。
本稿では,最適化方向を更新等級から切り離す手法である1-Way Policy Optimization (OWPO)を提案する。
実験の結果,OWPOはDAPO,OPD,MOPDなどの強いベースラインより優れていた。
論文 参考訳(メタデータ) (2026-05-21T08:25:27Z) - Stochastic MeanFlow Policies: One-Step Generative Control with Entropic Mirror Descent [53.828537014796574]
オンラインの非政治強化学習(RL)は、ポリシークラスと更新ルールの2つの選択肢によって構成されている。
我々は、MeanFlow変換を通じてノイズをアクションにマッピングする一段階生成ポリシークラスであるMeanFlow Policiesを提案する。
7つのMuJoCoベンチマークで、Sは1ステップの推論効率を維持しながら、ガウスおよび生成ベースラインを改善する。
論文 参考訳(メタデータ) (2026-05-20T15:14:14Z) - Teacher-Guided Policy Optimization for LLM Distillation [90.49982387646861]
Teacher-Guided Policy Optimization (TGPO) は、生徒のロールアウトに条件付き教師予測を活用することで、高密度な方向性誘導を取り入れたオンラインアルゴリズムである。
複雑な推論ベンチマークの実験では、TGPOは標準ベースラインを著しく上回り、異なる教師にとって堅牢であることが示されている。
論文 参考訳(メタデータ) (2026-05-13T09:20:03Z) - KL for a KL: On-Policy Distillation with Control Variate Baseline [13.281263788199219]
On-Policy Distillation (OPD) は、大規模言語モデルのトレーニング後の主要なパラダイムとして登場した。
本稿では,OPDを政策段階RLとするvOPDを提案する。
VOPDはバニラOPDより一貫して優れており,最も高価な全語彙ベースラインと一致している。
論文 参考訳(メタデータ) (2026-05-08T15:24:51Z) - Preference-Based Self-Distillation: Beyond KL Matching via Reward Regularization [18.027254451537342]
既存の自己蒸留法は、文脈拡張型教師モデルに向けた学習をKLマッチングに大きく還元する。
textbfPreference-textbfBased textbfSelf-textbfDistillation (textbfPBSD)を提案する。
論文 参考訳(メタデータ) (2026-05-06T15:31:50Z) - Self-Distilled RLVR [57.37526213765131]
特権教師からのみ派生した学習信号が,情報漏洩と不安定な長期学習をもたらすことを示す。
textbfSelf-textbfDistillationを用いたtextbfRLSD(textbfRLVR)を提案する。
これにより、RSSDはRLVRとOPSDの両方の強度を同時に利用でき、高い収束天井と優れたトレーニング安定性を実現することができる。
論文 参考訳(メタデータ) (2026-04-03T15:50:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。