論文の概要: It's Not You, It's Clipping: A Soft Trust-Region via Probability Smoothing for LLM RL
- arxiv url: http://arxiv.org/abs/2509.21282v1
- Date: Thu, 25 Sep 2025 15:03:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:13.014596
- Title: It's Not You, It's Clipping: A Soft Trust-Region via Probability Smoothing for LLM RL
- Title(参考訳): LLM RLの確率スムースティングによるソフトトラストレジオン
- Authors: Madeleine Dwyer, Adam Sobey, Adriane Chapman,
- Abstract要約: PPOやGRPOのような強化学習(RL)手法を用いた大規模言語モデル(LLM)の訓練は、更新の安定化に比例する。
重要度を計算する前に、従来の(行動)政策に対する現在の政策の確率を円滑にするPSPOを提案する。
GR-PSPOはクリップされたGRPOと比較して0.5Bと1.5Bの両方のパフォーマンスを大幅に改善し、GSM8Kでは20%以上向上した。
- 参考スコア(独自算出の注目度): 1.9507810024568648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training large language models (LLMs) with reinforcement learning (RL) methods such as PPO and GRPO commonly relies on ratio clipping to stabilise updates. While effective at preventing instability, clipping discards information and introduces gradient discontinuities. We propose Probability Smoothing Policy Optimisation (PSPO), which smooths the current policy's probabilities toward the old (behaviour) policy before computing the importance ratio, analogous to label smoothing. Unlike clipping, PSPO preserves gradient signal, while interpolation toward the old policy creates a soft trust region that discourages large, destabilising updates, with formal guarantees. We instantiate PSPO within GRPO (GR-PSPO) and fine-tune Qwen2.5-0.5B and Qwen2.5-1.5B on GSM8K, evaluating on GSM8K test and the cross-dataset generalisation on SVAMP, ASDiv, and MATH-500. Relative to unclipped GRPO (single iteration; no data reuse, ratio always = 1), GR-PSPO achieves similar performance but improves the reasoning leading to clearer and more concise responses which are more logical. Compared to clipped GRPO, GR-PSPO substantially improves performance both the 0.5B and 1.5B models, with a boost of over 20% on GSM8K (39.7% vs. 17.6% for 0.5B, 59.4% vs. 37.8% for 1.5B).
- Abstract(参考訳): PPOやGRPOのような強化学習(RL)手法を用いた大規模言語モデル(LLM)の訓練は、更新の安定化に比例する。
不安定性を防ぐのに効果的であるが、切り抜きは情報を破棄し、勾配の不連続を導入する。
本稿では,ラベルスムース化に類似した重要度を計算する前に,従来の(行動)政策に対する現在の政策の確率を円滑にする確率平滑化政策最適化(PSPO)を提案する。
クリッピングとは異なり、PSPOは勾配信号を保持するが、古いポリシーへの補間は、大きな不安定な更新を回避し、正式な保証とともにソフトトラスト領域を生成する。
GRPO(GR-PSPO)および細管Qwen2.5-0.5BおよびQwen2.5-1.5BをGSM8K上でインスタンス化し,GSM8KテストとSVAMP,ASDiv,MATH-500上でのクロスデータセット一般化を評価した。
GR-PSPO は GR-PSPO と同様のパフォーマンスを実現するが、より論理的なより明確で簡潔な応答につながる推論を改善する。
GR-PSPOはクリップされたGRPOと比較して0.5Bと1.5Bの両方のパフォーマンスを大幅に改善し、GSM8Kでは20%以上向上した(0.5Bでは39.7%、0.5Bでは17.6%、1.5Bでは59.4%、37.8%)。
関連論文リスト
- Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - Ratio-Variance Regularized Policy Optimization for Efficient LLM Fine-tuning [48.34492357368989]
本稿では,安定なオン・ポリティクス学習をサポートし,オフ・ポリティクスデータの再利用を原則とするプリミティブ・デュアル・フレームワークを提案する。
R2VPO$は、強いクリッピングベースのベースラインよりも17%の平均的な相対的なゲインで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-01-06T14:01:42Z) - A-3PO: Accelerating Asynchronous LLM Training with Staleness-aware Proximal Policy Approximation [2.5291809836356998]
我々は、政治外の修正を規制政策更新から切り離すための近親政策を導入する。
このポリシーでは、トレーニングの各ステップでネットワークをさらに前方通過する必要があるため、計算ボトルネックが発生します。
我々は,親近性ポリシが行動と対象ポリシの間に固定された信頼領域としてのみ機能するため,明示的な計算をせずに簡単な方法で近似することができることを観察した。
論文 参考訳(メタデータ) (2025-12-06T19:37:39Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Geometric-Mean Policy Optimization [122.95205388291987]
グループ相対政策最適化(GRPO)の安定化版を提案する。
算術平均を最適化する代わりに、GMPOはトークンレベルの報酬の幾何学平均を最大化する。
GMPO-7Bは安定性の向上に加えて、複数の数学ベンチマークでは平均4.1%、マルチモーダル推論ベンチマークでは1.4%でGRPOを上回っている。
論文 参考訳(メタデータ) (2025-07-28T09:54:05Z) - Squeeze the Soaked Sponge: Efficient Off-policy Reinforcement Finetuning for Large Language Model [56.92219181993453]
本稿では,PPOやGRPOなどのオンラインRFT手法をオフ・ポリティクスデータに活用するために,Reincarnating Mix-policy Proximal Policy Gradient (ReMix)を提案する。
ReMix は,(1) 効率的なトレーニングのための更新データ(UTD)比が増大した混成政策勾配,(2) 安定性と柔軟性のトレードオフのバランスをとるためのKL-Convex 政策制約,(3) 効率的な早期学習から安定した改善へのシームレスな移行を実現するための政策再編成の3つの主要な構成要素から構成される。
論文 参考訳(メタデータ) (2025-07-09T14:29:45Z) - PPO-BR: Dual-Signal Entropy-Reward Adaptation for Trust Region Policy Optimization [0.0]
PPO-BRは、新しい探索と収束信号を単一の信頼領域に融合することで、パラダイム適応RLを確立する。
この研究は、位相認識学習における重要なギャップを埋め、ロボット手術のような安全クリティカルなシステムへの現実世界の展開を可能にする。
論文 参考訳(メタデータ) (2025-05-23T10:30:58Z) - Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance [52.65461207786633]
政策に基づく人間からのフィードバックからの強化学習は、大きな言語モデルと人間の嗜好の整合に不可欠である。
俳優と批評家の合同トレーニングと、事前訓練された一定の報酬モデルによる指導が必要である。
従来の報酬モデリングを事前訓練されたEmphglobal Value Model(GVM)に置き換えるリーンフレームワークである textbfDecoupled Value Policy Optimization (DVPO) を提案する。
論文 参考訳(メタデータ) (2025-02-24T08:11:33Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。