Fugu-MT 論文翻訳(概要): It's Not You, It's Clipping: A Soft Trust-Region via Probability Smoothing for LLM RL

論文の概要: It's Not You, It's Clipping: A Soft Trust-Region via Probability Smoothing for LLM RL

arxiv url: http://arxiv.org/abs/2509.21282v1
Date: Thu, 25 Sep 2025 15:03:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-26 20:58:13.014596
Title: It's Not You, It's Clipping: A Soft Trust-Region via Probability Smoothing for LLM RL
Title（参考訳）: LLM RLの確率スムースティングによるソフトトラストレジオン
Authors: Madeleine Dwyer, Adam Sobey, Adriane Chapman,
Abstract要約: PPOやGRPOのような強化学習(RL)手法を用いた大規模言語モデル(LLM)の訓練は、更新の安定化に比例する。重要度を計算する前に、従来の(行動)政策に対する現在の政策の確率を円滑にするPSPOを提案する。 GR-PSPOはクリップされたGRPOと比較して0.5Bと1.5Bの両方のパフォーマンスを大幅に改善し、GSM8Kでは20%以上向上した。
参考スコア（独自算出の注目度）: 1.9507810024568648
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Training large language models (LLMs) with reinforcement learning (RL) methods such as PPO and GRPO commonly relies on ratio clipping to stabilise updates. While effective at preventing instability, clipping discards information and introduces gradient discontinuities. We propose Probability Smoothing Policy Optimisation (PSPO), which smooths the current policy's probabilities toward the old (behaviour) policy before computing the importance ratio, analogous to label smoothing. Unlike clipping, PSPO preserves gradient signal, while interpolation toward the old policy creates a soft trust region that discourages large, destabilising updates, with formal guarantees. We instantiate PSPO within GRPO (GR-PSPO) and fine-tune Qwen2.5-0.5B and Qwen2.5-1.5B on GSM8K, evaluating on GSM8K test and the cross-dataset generalisation on SVAMP, ASDiv, and MATH-500. Relative to unclipped GRPO (single iteration; no data reuse, ratio always = 1), GR-PSPO achieves similar performance but improves the reasoning leading to clearer and more concise responses which are more logical. Compared to clipped GRPO, GR-PSPO substantially improves performance both the 0.5B and 1.5B models, with a boost of over 20% on GSM8K (39.7% vs. 17.6% for 0.5B, 59.4% vs. 37.8% for 1.5B).
Abstract（参考訳）: PPOやGRPOのような強化学習(RL)手法を用いた大規模言語モデル(LLM)の訓練は、更新の安定化に比例する。不安定性を防ぐのに効果的であるが、切り抜きは情報を破棄し、勾配の不連続を導入する。本稿では,ラベルスムース化に類似した重要度を計算する前に,従来の(行動)政策に対する現在の政策の確率を円滑にする確率平滑化政策最適化(PSPO)を提案する。クリッピングとは異なり、PSPOは勾配信号を保持するが、古いポリシーへの補間は、大きな不安定な更新を回避し、正式な保証とともにソフトトラスト領域を生成する。 GRPO(GR-PSPO)および細管Qwen2.5-0.5BおよびQwen2.5-1.5BをGSM8K上でインスタンス化し,GSM8KテストとSVAMP,ASDiv,MATH-500上でのクロスデータセット一般化を評価した。 GR-PSPO は GR-PSPO と同様のパフォーマンスを実現するが、より論理的なより明確で簡潔な応答につながる推論を改善する。 GR-PSPOはクリップされたGRPOと比較して0.5Bと1.5Bの両方のパフォーマンスを大幅に改善し、GSM8Kでは20%以上向上した(0.5Bでは39.7%、0.5Bでは17.6%、1.5Bでは59.4%、37.8%)。

論文の概要: It's Not You, It's Clipping: A Soft Trust-Region via Probability Smoothing for LLM RL

関連論文リスト