論文の概要: SSPO: Subsentence-level Policy Optimization
- arxiv url: http://arxiv.org/abs/2511.04256v1
- Date: Thu, 06 Nov 2025 10:48:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.394235
- Title: SSPO: Subsentence-level Policy Optimization
- Title(参考訳): SSPO: サブスタンスレベルの政策最適化
- Authors: Kun Yang, Zikang chen, Yanmeng Wang, Zhigen Li,
- Abstract要約: 本稿では,GRPO と GSPO のバランスをとる SSPO について述べる。
SSPOは5つのデータセットの平均スコア46.57を達成し、GRPO (43.01) とGSPO (44.42) を上回り、3つのデータセットで最先端のパフォーマンスを獲得した。
- 参考スコア(独自算出の注目度): 11.74548168856559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a significant part of post-training of the Large Language Models (LLMs), Reinforcement Learning from Verifiable Reward (RLVR) has greatly improved LLMs' reasoning skills. However, some RLVR algorithms, such as GRPO (Group Relative Policy Optimization) and GSPO (Group Sequence Policy Optimization), are observed to suffer from unstable policy updates and low usage of sampling data, respectively. The importance ratio of GRPO is calculated at the token level, which focuses more on optimizing a single token. This will be easily affected by outliers, leading to model training collapse. GSPO proposed the calculation of the response level importance ratio, which solves the problem of high variance and training noise accumulation in the calculation of the GRPO importance ratio. However, since all the response tokens share a common importance ratio, extreme values can easily raise or lower the overall mean, leading to the entire response being mistakenly discarded, resulting in a decrease in the utilization of sampled data. This paper introduces SSPO, which applies sentence-level importance ratio, taking the balance between GRPO and GSPO. SSPO not only avoids training collapse and high variance, but also prevents the whole response tokens from being abandoned by the clipping mechanism. Furthermore, we apply sentence entropy to PPO-CLIP to steadily adjust the clipping bounds, encouraging high-entropy tokens to explore and narrow the clipping range of low-entropy tokens. In particular, SSPO achieves an average score of 46.57 across five datasets, surpassing GRPO (43.01) and GSPO (44.42), and wins state-of-the-art performance on three datasets. These results highlight SSPO's effectiveness in leveraging generated data by taking the essence of GSPO but rejecting its shortcomings.
- Abstract(参考訳): LLM(Large Language Models)のポストトレーニングの重要な部分として、LLMの推論スキルを大幅に改善した。
しかし、GRPO(Group Relative Policy Optimization)やGSPO(Group Sequence Policy Optimization)といった一部のRLVRアルゴリズムは、それぞれ不安定なポリシー更新とサンプリングデータの低使用に悩まされている。
GRPOの重要度はトークンレベルで計算され、単一のトークンの最適化に重点を置いている。
これは容易に外れの影響を受け、モデルトレーニングの崩壊につながる。
GSPO は応答レベル重心比の計算を提案し,GRPO 重心比の計算において高分散とトレーニングノイズ蓄積の問題を解く。
しかし、全ての応答トークンは共通の重要性の比率を共有しているため、極端な値は全体の平均値を上げたり下げたりすることができ、結果として反応全体が誤って破棄され、サンプルデータの利用が減少する。
本稿では,GRPO と GSPO のバランスをとる SSPO について述べる。
SSPOはトレーニングの崩壊や高い分散を避けるだけでなく、クリッピング機構によって応答トークン全体が放棄されるのを防ぐ。
さらに,PPO-CLIPに文エントロピーを適用し,クリッピング境界を一定に調整し,低エントロピートークンのクリッピング範囲を探索・絞り込むように高エントロピートークンを奨励する。
特に、SSPOは5つのデータセットの平均スコア46.57を達成し、GRPO (43.01) とGSPO (44.42) を上回り、3つのデータセットで最先端のパフォーマンスを獲得した。
これらの結果は,GSPOの本質を取り入れつつ,その欠点を否定することで,生成データを活用するSSPOの有効性を浮き彫りにしている。
関連論文リスト
- Token-Regulated Group Relative Policy Optimization for Stable Reinforcement Learning in Large Language Models [18.785063555637613]
グループ相対政策最適化(GRPO)は、高いパフォーマンスを示している。
低確率トークンが不均等に勾配更新を支配している。
この不均衡は不安定なトレーニングをもたらし、高確率トークンの寄与を抑制する。
論文 参考訳(メタデータ) (2025-10-29T08:07:47Z) - Repurposing Synthetic Data for Fine-grained Search Agent Supervision [81.95597592711688]
LLMベースの検索エージェントは、エンティティ中心の合成データに基づいてますます訓練されている。
一般的なトレーニングメソッドは、このリッチなエンティティ情報を破棄し、代わりにスパースで結果に基づく報酬に依存します。
E-GRPO(Entity-Aware Group Relative Policy Optimization)は、高密度なエンティティ認識報酬関数を定式化する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-10-28T17:50:40Z) - Single-stream Policy Optimization [21.214853668053234]
SPO(Single-stream Policy Optimization)を導入する。
SPOはグループ単位のベースラインを永続的なKL適応値トラッカーに置き換え、バッチ全体にわたってメリットを標準化する。
グループフリーであるため、SPOはより高いスループットと、長い水平またはツール統合された設定で効果的にスケールすることができる。
論文 参考訳(メタデータ) (2025-09-16T16:39:11Z) - Geometric-Mean Policy Optimization [117.05113769757172]
グループ相対政策最適化(GRPO)は,大規模言語モデルの推論能力を大幅に向上させた。
GRPOは、不利な重要度重み付けされた報酬を持つトークンに直面すると、不安定なポリシー更新に悩まされる。
本稿では,GRPOの安定性を向上させるために,トークン報酬の出力を抑えることにより,GMPO(Geometric-Mean Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2025-07-28T09:54:05Z) - On the Effect of Negative Gradient in Group Relative Deep Reinforcement Optimization [52.76330545825083]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力の向上に人気がある。
従来認識されていなかった Lazy Likelihood Displacement (LLD) 現象を同定し, トレーニング中に正答率がわずかに増加するか, あるいは低下する可能性が示唆された。
従来のDPOベースのアプローチとは異なり、NTHRはGRPOのグループベースの構造を利用して、適切な応答をアンカーとして利用し、重要なトークンを識別する。
論文 参考訳(メタデータ) (2025-05-24T18:58:51Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [50.91849555841057]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
DisCO は GRPO と DAPO などの改良型を著しく上回り、GRPO の7%、DAPO の6% を平均的に上回っている。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。