論文の概要: SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2604.08865v1
- Date: Fri, 10 Apr 2026 01:58:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.632115
- Title: SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks
- Title(参考訳): SPPO:長軸推論タスクのためのシーケンスレベルPPO
- Authors: Tianyi Wang, Yixia Li, Long Li, Yibiao Chen, Shaohan Huang, Yun Chen, Peng Li, Yang Liu, Guanhua Chen,
- Abstract要約: Sequence-Level PPO (SPPO) は、PPOのサンプルテキスト効率と結果ベースの更新の安定性を調和させるスケーラブルなアルゴリズムである。
SPPOは標準のPPOをはるかに上回り、計算量の多いグループベースの手法の性能に匹敵する。
- 参考スコア(独自算出の注目度): 41.49967840381499
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Proximal Policy Optimization (PPO) is central to aligning Large Language Models (LLMs) in reasoning tasks with verifiable rewards. However, standard token-level PPO struggles in this setting due to the instability of temporal credit assignment over long Chain-of-Thought (CoT) horizons and the prohibitive memory cost of the value model. While critic-free alternatives like GRPO mitigate these issues, they incur significant computational overhead by requiring multiple samples for baseline estimation, severely limiting training throughput. In this paper, we introduce Sequence-Level PPO (SPPO), a scalable algorithm that harmonizes the sample efficiency of PPO with the stability of outcome-based updates. SPPO reformulates the reasoning process as a Sequence-Level Contextual Bandit problem, employing a decoupled scalar value function to derive low-variance advantage signals without multi-sampling. Extensive experiments on mathematical benchmarks demonstrate that SPPO significantly surpasses standard PPO and matches the performance of computation-heavy group-based methods, offering a resource-efficient framework for aligning reasoning LLMs.
- Abstract(参考訳): PPO(Proximal Policy Optimization)は、大きな言語モデル(LLM)を、検証可能な報酬を伴うタスクの推論において整合させることの中心である。
しかし、標準的なトークンレベルのPPOは、長いチェーン・オブ・ソート(CoT)の地平線に対する時間的クレジット割り当ての不安定性と、バリューモデルの禁止メモリコストのために、この設定で苦労している。
GRPOのような批判のない代替手段はこれらの問題を緩和するが、ベースライン推定のために複数のサンプルを必要とするため、トレーニングのスループットを著しく制限することで、計算オーバーヘッドが大幅に増大する。
本稿では,PPOのサンプル効率と結果ベース更新の安定性を調和させるスケーラブルなアルゴリズムであるSequence-Level PPO(SPPO)を紹介する。
SPPOはシーケンスレベルコンテキスト帯域問題として推論プロセスを再構成し、分離されたスカラー値関数を用いてマルチサンプリングなしで低分散利得信号を導出する。
数式ベンチマークの大規模な実験により、SPPOは標準のPPOをはるかに上回り、計算量の多いグループベースの手法の性能に匹敵することを示した。
関連論文リスト
- Preventing Learning Stagnation in PPO by Scaling to 1 Million Parallel Environments [31.754045125599305]
特定の体制における高原は、損失のサンプルベースの推定が、訓練の過程で真の目的のために不十分なプロキシとなるために生じる。
このタイプの学習の停滞に対処する方法には,ステップサイズを縮小するか,更新間で収集されたサンプル数を増やすかの2つがある。
我々は、PPOを100万以上の並列環境に拡張することにより、複雑なオープン化された領域における事前ベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2026-03-06T08:07:08Z) - Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - ST-PPO: Stabilized Off-Policy Proximal Policy Optimization for Multi-Turn Agents Training [43.4652098588194]
PPOは多ターン対話や推論タスクにおいてトークンレベルでの大規模言語モデル(LLM)のトレーニングに広く採用されている。
ターンレベルの重要度サンプリングとクリッピングバイアス補正の2つの相補的安定化手法を導入する。
実験の結果,ST-PPOとS-PPOは大規模モデルのトレーニングで観測される性能崩壊を一貫して防止することがわかった。
論文 参考訳(メタデータ) (2025-11-25T05:54:02Z) - Asymmetric Proximal Policy Optimization: mini-critics boost LLM reasoning [49.57517969069136]
Asymmetric Proximal Policy Optimization (AsyPPO) は、大規模なモデル設定で効率を保ちながら、批評家の役割を回復するシンプルでスケーラブルなフレームワークである。
AsyPPOは軽量のミニ批評家を採用しており、それぞれが切り離されたプロンプトシャードで訓練されている。
強力なベースラインを越えて、複数のベンチマークで学習の安定性とパフォーマンスを継続的に改善する。
論文 参考訳(メタデータ) (2025-10-02T04:24:27Z) - What's Behind PPO's Collapse in Long-CoT? Value Optimization Holds the Secret [3.410112345043215]
これらの問題に対処するために,VC-PPO(Value-Calibrated PPO)を提案する。
The American Invitational Mathematics Examination (AIME) の実験は、VC-PPOがPPOのパフォーマンスを著しく向上させることを示している。
論文 参考訳(メタデータ) (2025-03-03T12:59:25Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。