論文の概要: It's Not You, It's Clipping: A Soft Trust-Region via Probability Smoothing for LLM RL
- arxiv url: http://arxiv.org/abs/2509.21282v1
- Date: Thu, 25 Sep 2025 15:03:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:13.014596
- Title: It's Not You, It's Clipping: A Soft Trust-Region via Probability Smoothing for LLM RL
- Title(参考訳): LLM RLの確率スムースティングによるソフトトラストレジオン
- Authors: Madeleine Dwyer, Adam Sobey, Adriane Chapman,
- Abstract要約: PPOやGRPOのような強化学習(RL)手法を用いた大規模言語モデル(LLM)の訓練は、更新の安定化に比例する。
重要度を計算する前に、従来の(行動)政策に対する現在の政策の確率を円滑にするPSPOを提案する。
GR-PSPOはクリップされたGRPOと比較して0.5Bと1.5Bの両方のパフォーマンスを大幅に改善し、GSM8Kでは20%以上向上した。
- 参考スコア(独自算出の注目度): 1.9507810024568648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training large language models (LLMs) with reinforcement learning (RL) methods such as PPO and GRPO commonly relies on ratio clipping to stabilise updates. While effective at preventing instability, clipping discards information and introduces gradient discontinuities. We propose Probability Smoothing Policy Optimisation (PSPO), which smooths the current policy's probabilities toward the old (behaviour) policy before computing the importance ratio, analogous to label smoothing. Unlike clipping, PSPO preserves gradient signal, while interpolation toward the old policy creates a soft trust region that discourages large, destabilising updates, with formal guarantees. We instantiate PSPO within GRPO (GR-PSPO) and fine-tune Qwen2.5-0.5B and Qwen2.5-1.5B on GSM8K, evaluating on GSM8K test and the cross-dataset generalisation on SVAMP, ASDiv, and MATH-500. Relative to unclipped GRPO (single iteration; no data reuse, ratio always = 1), GR-PSPO achieves similar performance but improves the reasoning leading to clearer and more concise responses which are more logical. Compared to clipped GRPO, GR-PSPO substantially improves performance both the 0.5B and 1.5B models, with a boost of over 20% on GSM8K (39.7% vs. 17.6% for 0.5B, 59.4% vs. 37.8% for 1.5B).
- Abstract(参考訳): PPOやGRPOのような強化学習(RL)手法を用いた大規模言語モデル(LLM)の訓練は、更新の安定化に比例する。
不安定性を防ぐのに効果的であるが、切り抜きは情報を破棄し、勾配の不連続を導入する。
本稿では,ラベルスムース化に類似した重要度を計算する前に,従来の(行動)政策に対する現在の政策の確率を円滑にする確率平滑化政策最適化(PSPO)を提案する。
クリッピングとは異なり、PSPOは勾配信号を保持するが、古いポリシーへの補間は、大きな不安定な更新を回避し、正式な保証とともにソフトトラスト領域を生成する。
GRPO(GR-PSPO)および細管Qwen2.5-0.5BおよびQwen2.5-1.5BをGSM8K上でインスタンス化し,GSM8KテストとSVAMP,ASDiv,MATH-500上でのクロスデータセット一般化を評価した。
GR-PSPO は GR-PSPO と同様のパフォーマンスを実現するが、より論理的なより明確で簡潔な応答につながる推論を改善する。
GR-PSPOはクリップされたGRPOと比較して0.5Bと1.5Bの両方のパフォーマンスを大幅に改善し、GSM8Kでは20%以上向上した(0.5Bでは39.7%、0.5Bでは17.6%、1.5Bでは59.4%、37.8%)。
関連論文リスト
- Geometric-Mean Policy Optimization [122.95205388291987]
グループ相対政策最適化(GRPO)の安定化版を提案する。
算術平均を最適化する代わりに、GMPOはトークンレベルの報酬の幾何学平均を最大化する。
GMPO-7Bは安定性の向上に加えて、複数の数学ベンチマークでは平均4.1%、マルチモーダル推論ベンチマークでは1.4%でGRPOを上回っている。
論文 参考訳(メタデータ) (2025-07-28T09:54:05Z) - Squeeze the Soaked Sponge: Efficient Off-policy Reinforcement Finetuning for Large Language Model [56.92219181993453]
本稿では,PPOやGRPOなどのオンラインRFT手法をオフ・ポリティクスデータに活用するために,Reincarnating Mix-policy Proximal Policy Gradient (ReMix)を提案する。
ReMix は,(1) 効率的なトレーニングのための更新データ(UTD)比が増大した混成政策勾配,(2) 安定性と柔軟性のトレードオフのバランスをとるためのKL-Convex 政策制約,(3) 効率的な早期学習から安定した改善へのシームレスな移行を実現するための政策再編成の3つの主要な構成要素から構成される。
論文 参考訳(メタデータ) (2025-07-09T14:29:45Z) - PPO-BR: Dual-Signal Entropy-Reward Adaptation for Trust Region Policy Optimization [0.0]
PPO-BRは、新しい探索と収束信号を単一の信頼領域に融合することで、パラダイム適応RLを確立する。
この研究は、位相認識学習における重要なギャップを埋め、ロボット手術のような安全クリティカルなシステムへの現実世界の展開を可能にする。
論文 参考訳(メタデータ) (2025-05-23T10:30:58Z) - Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance [52.65461207786633]
政策に基づく人間からのフィードバックからの強化学習は、大きな言語モデルと人間の嗜好の整合に不可欠である。
俳優と批評家の合同トレーニングと、事前訓練された一定の報酬モデルによる指導が必要である。
従来の報酬モデリングを事前訓練されたEmphglobal Value Model(GVM)に置き換えるリーンフレームワークである textbfDecoupled Value Policy Optimization (DVPO) を提案する。
論文 参考訳(メタデータ) (2025-02-24T08:11:33Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。