論文の概要: Physics-Guided Policy Optimization with Self-Distillation
- arxiv url: http://arxiv.org/abs/2606.03620v1
- Date: Tue, 02 Jun 2026 13:20:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:05.021784
- Title: Physics-Guided Policy Optimization with Self-Distillation
- Title(参考訳): 自己蒸留による物理誘導政策最適化
- Authors: Ke Wang, Yuning Wu, Haoran Liu, Chaoqun Jia, Devin Chen, Kai Wei,
- Abstract要約: 自己蒸留政策最適化(SDPO)はLLMポストトレーニングの一般的なパラダイムとなっている。
本稿では,情報変調ステップサイズ乗算器であるPGPOを提案する。
この変調は、バニラSGDのオーダー-1弱近似保証を保ち、反復毎に無視できないオーバーヘッドを生じさせることを示す。
- 参考スコア(独自算出の注目度): 13.212487988108592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-distilled policy optimization (SDPO) has become a popular paradigm for LLM post-training, where a model learns from its own predictions conditioned on privileged information. SDPO, however, is sensitive to how much each update step should be trusted: corrections from a self-teacher can be highly informative on some batches and misleading on others, and applying them uniformly with a fixed step size can destabilize training. Drawing inspiration from viscous-fluid dynamics and formalizing the analogy at the SDE level, we propose Physics-Guided Policy Optimization (PGPO), which introduces an information-modulated step-size multiplier derived from a mutual-information estimate between the student's predictions and the feedback-conditioned teacher. We show that this modulation preserves the order-1 weak-approximation guarantees of vanilla SGD, and incurs negligible overhead per iteration. We evaluate PGPO on the Science-QA dataset, where it outperforms SDPO on 3 of the 4 domains with gains of up to +4.5 points, while remaining stable in a setting where SDPO collapses late in training.
- Abstract(参考訳): 自己蒸留政策最適化(SDPO)は、特権情報に基づく独自の予測から学習するLLMポストトレーニングにおいて、一般的なパラダイムとなっている。
しかしSDPOは、各更新ステップがどれだけ信頼されるべきかに敏感である: 自己学習者からの修正は、いくつかのバッチに対して高い情報を与え、他のバッチに誤解を与え、それらを固定されたステップサイズで一様に適用することで、トレーニングを不安定にすることができる。
粘性流体力学からインスピレーションを得て,SDEレベルでのアナロジーを定式化する物理誘導政策最適化(PGPO)を提案し,学生の予測とフィードバック条件付き教師との相互情報推定から得られる情報変調ステップサイズ乗算器を提案する。
この変調は、バニラSGDのオーダー-1弱近似保証を保ち、反復毎に無視できないオーバーヘッドを生じさせることを示す。
我々は,Science-QAデータセット上でPGPOを評価し,SDPOが4つのドメインのうち3つのドメインで最大4.5ポイント向上し,SDPOが遅滞時に崩壊する環境では安定な状態を維持した。
関連論文リスト
- Restoring the Sweet Spot: Pass-Rate Weighted Self-Distillation for LLM Reasoning [37.935234078277354]
自己蒸留政策最適化(SDPO)は、大規模言語モデルを用いた強化学習のための高密度トークンレベルの信用割当を提供する。
我々はこのギャップをGRPOの有利な正規化のレンズを通して解析する。
科学的推論とツール使用ベンチマークの実験では、SC-SDPOはSDPOよりも一貫して改善されている。
論文 参考訳(メタデータ) (2026-05-26T23:30:01Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - A Step Back: Prefix Importance Ratio Stabilizes Policy Optimization [58.116300485427764]
強化学習のポストトレーニングは、大きな言語モデルにおける推論の振る舞いを引き出すことができる。
トークンレベルの補正は、オフポリシーネスの度合いが大きい場合、不安定なトレーニングダイナミクスにつながることが多い。
我々は,最小固定率 (MinPRO) を簡易かつ効果的に提案する。
論文 参考訳(メタデータ) (2026-01-30T08:47:19Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - Differential Information Distribution: A Bayesian Perspective on Direct Preference Optimization [35.335072390336855]
対象ポリシーに参照ポリシーを更新するために必要な差分情報を学習する際の選好最適化の目標について検討する。
まず、DPOの対数比の報酬は、ターゲットポリシーに参照ポリシーを更新するために必要な差分情報をエンコードする場合に一意に正当化される。
第2に、DPOにおけるトレーニングのダイナミクスが、ログライクな状態の変化や政策探索の変化など、どの程度の頻度で観察されているかについて論じる。
論文 参考訳(メタデータ) (2025-05-29T17:59:50Z) - SEED-GRPO: Semantic Entropy Enhanced GRPO for Uncertainty-Aware Policy Optimization [57.69385990442078]
大規模言語モデル(LLM)は、入力プロンプト(クエスト)にまたがる様々なレベルの信頼を示す。
セマンティックエントロピー(Semantic entropy)は、プロンプトが与えられた複数の生成された回答における意味の多様性を測定し、ポリシー更新の規模を変調するためにこれを使用する。
論文 参考訳(メタデータ) (2025-05-18T10:20:59Z) - Large Continual Instruction Assistant [59.585544987096974]
CIT(Continuous Instruction Tuning)は、大規模モデルにデータによる人間の意図データに従うよう指示するために用いられる。
既存の更新勾配は、CITプロセス中に前のデータセットのパフォーマンスを著しく損なうことになる。
本稿では,この課題に対処する汎用的な連続的命令チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T11:24:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。