論文の概要: Single-stream Policy Optimization
- arxiv url: http://arxiv.org/abs/2509.13232v1
- Date: Tue, 16 Sep 2025 16:39:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.176125
- Title: Single-stream Policy Optimization
- Title(参考訳): シングルストリームポリシー最適化
- Authors: Zhongwen Xu, Zihan Ding,
- Abstract要約: SPO(Single-stream Policy Optimization)を導入する。
SPOはグループ単位のベースラインを永続的なKL適応値トラッカーに置き換え、バッチ全体にわたってメリットを標準化する。
グループフリーであるため、SPOはより高いスループットと、長い水平またはツール統合された設定で効果的にスケールすることができる。
- 参考スコア(独自算出の注目度): 21.214853668053234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We revisit policy-gradient optimization for Large Language Models (LLMs) from a single-stream perspective. Prevailing group-based methods like GRPO reduce variance with on-the-fly baselines but suffer from critical flaws: frequent degenerate groups erase learning signals, and synchronization barriers hinder scalability. We introduce Single-stream Policy Optimization (SPO), which eliminates these issues by design. SPO replaces per-group baselines with a persistent, KL-adaptive value tracker and normalizes advantages globally across the batch, providing a stable, low-variance learning signal for every sample. Being group-free, SPO enables higher throughput and scales effectively in long-horizon or tool-integrated settings where generation times vary. Furthermore, the persistent value tracker naturally enables an adaptive curriculum via prioritized sampling. Experiments using Qwen3-8B show that SPO converges more smoothly and attains higher accuracy than GRPO, while eliminating computation wasted on degenerate groups. Ablation studies confirm that SPO's gains stem from its principled approach to baseline estimation and advantage normalization, offering a more robust and efficient path for LLM reasoning. Across five hard math benchmarks with Qwen3 8B, SPO improves the average maj@32 by +3.4 percentage points (pp) over GRPO, driven by substantial absolute point gains on challenging datasets, including +7.3 pp on BRUMO 25, +4.4 pp on AIME 25, +3.3 pp on HMMT 25, and achieves consistent relative gain in pass@$k$ across the evaluated $k$ values. SPO's success challenges the prevailing trend of adding incidental complexity to RL algorithms, highlighting a path where fundamental principles, not architectural workarounds, drive the next wave of progress in LLM reasoning.
- Abstract(参考訳): 単一ストリームの観点から,大規模言語モデル(LLM)に対するポリシー段階の最適化を再考する。
GRPOのようなグループベースの手法は、オンザフライベースラインとのばらつきを減らすが、重大な欠陥に悩まされる。
本稿では,SPO(Single-stream Policy Optimization)を導入し,これらの問題を設計によって排除する。
SPOはグループごとのベースラインを永続的なKL適応値トラッカーに置き換え、各サンプルに対して安定した低分散学習信号を提供する。
グループフリーであるため、SPOは、生成時間が異なる長い水平またはツール統合設定において、高いスループットとスケールを効果的に実現します。
さらに、永続値トラッカーは、優先サンプリングによる適応的なカリキュラムを自然に実現する。
Qwen3-8B を用いた実験により,SPO は GRPO よりも滑らかに収束し,縮退した群に費やされた計算を除去する。
アブレーション研究は、SPOの利得がベースライン推定と優位な正規化への原則的アプローチに由来することを確認し、LLM推論のより堅牢で効率的な経路を提供する。
Qwen3 8B による5つのハード数学ベンチマークにおいて、SPO は平均 maj@32 を GRPO よりも +3.4 パーセンテージ (pp) 改善し、BRUMO 25 の +7.3 pp や AIME 25 の +4.4 pp 、HMMT 25 の +3.3 pp など、挑戦的なデータセットに対する実質的な絶対的なポイントゲインによって引き起こされる。
SPOの成功は、RLアルゴリズムに偶発的な複雑さを加えるという一般的な傾向に挑戦し、アーキテクチャ上の回避ではなく、基本的な原則がLLM推論の次の波を駆動する経路を強調している。
関連論文リスト
- Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning [55.33984461046492]
現在、政策に基づく手法が大規模言語モデル(LLM)推論のための強化学習パイプラインを支配している。
本稿では,このアイデアを LLM に自然に適応させるアルゴリズムである Trajectory Bellman Residual Minimization (TBRM) を紹介する。
我々は、軌道の軌道変更-測度分析の改善により、任意のオフ政治から、最適に近いKL正規化政策への収束を証明した。
論文 参考訳(メタデータ) (2025-05-21T09:41:53Z) - Unearthing Gems from Stones: Policy Optimization with Negative Sample Augmentation for LLM Reasoning [41.83677588934301]
負のサンプル拡張(BCPG-NSA)による行動制約付きポリシーのグラディエントを提案する。
BCPG-NSA は,1) サンプルセグメンテーション,2) LLM と PRM を併用した合意に基づくステップ正当性評価,3) 正のステップを負のサンプル内で効果的にマイニングするNSA とのポリシー最適化の3段階を含む,詳細なオフラインフレームワークである。
実験の結果、BCPG-NSAは、同じトレーニングデータセットを使用して、いくつかの挑戦的な数学/コーディング推論ベンチマークのベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-05-20T14:16:49Z) - Kalman Filter Enhanced GRPO for Reinforcement Learning-Based Language Model Reasoning [11.708197376569016]
グループ相対政策最適化(GRPO)は、グループ内のすべての出力に対して平均報酬をベースラインとして減算することで、各出力の利点を計算するために提案される。
これは、非常にノイズの多い報奨を伴う環境において、不正確な有利な見積もりをもたらし、バイアスをもたらす可能性がある。
本稿では,KRPO(Kalman Filter Enhanced Group Relative Policy Optimization)と呼ばれるモデルを提案する。
論文 参考訳(メタデータ) (2025-05-12T13:09:49Z) - Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。
従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。
LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-06-30T08:00:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。