論文の概要: Segment Policy Optimization: Effective Segment-Level Credit Assignment in RL for Large Language Models
- arxiv url: http://arxiv.org/abs/2505.23564v1
- Date: Thu, 29 May 2025 15:38:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.949064
- Title: Segment Policy Optimization: Effective Segment-Level Credit Assignment in RL for Large Language Models
- Title(参考訳): セグメントポリシー最適化:大規模言語モデルのRLにおける効果的なセグメントレベルクレジットアサインメント
- Authors: Yiran Guo, Lijie Xu, Jie Liu, Dan Ye, Shuang Qiu,
- Abstract要約: 中間粒度におけるセグメントレベルの優位性推定を利用する新しいRLフレームワークであるセグメントポリシー最適化(SPO)を提案する。
SPOは,(1)フレキシブルセグメント分割,(2)正確なセグメント優位性推定,(3)セグメント優位性を用いたポリシー最適化の3つの新しい戦略を特徴とする。
SPO-chain for short chain-of- Thought (CoT)は、新しいカットポイントベースのパーティションとチェーンベースのアドバンテージ推定を特徴とし、GSM8K上のPPOとGRPOよりも精度が6-12$ポイント向上した。
長いチェーン・オブ・シークレット(CoT)のためのSPOツリー
- 参考スコア(独自算出の注目度): 10.408501899305262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Enhancing the reasoning capabilities of large language models effectively using reinforcement learning (RL) remains a crucial challenge. Existing approaches primarily adopt two contrasting advantage estimation granularities: Token-level methods (e.g., PPO) aim to provide the fine-grained advantage signals but suffer from inaccurate estimation due to difficulties in training an accurate critic model. On the other extreme, trajectory-level methods (e.g., GRPO) solely rely on a coarse-grained advantage signal from the final reward, leading to imprecise credit assignment. To address these limitations, we propose Segment Policy Optimization (SPO), a novel RL framework that leverages segment-level advantage estimation at an intermediate granularity, achieving a better balance by offering more precise credit assignment than trajectory-level methods and requiring fewer estimation points than token-level methods, enabling accurate advantage estimation based on Monte Carlo (MC) without a critic model. SPO features three components with novel strategies: (1) flexible segment partition; (2) accurate segment advantage estimation; and (3) policy optimization using segment advantages, including a novel probability-mask strategy. We further instantiate SPO for two specific scenarios: (1) SPO-chain for short chain-of-thought (CoT), featuring novel cutpoint-based partition and chain-based advantage estimation, achieving $6$-$12$ percentage point improvements in accuracy over PPO and GRPO on GSM8K. (2) SPO-tree for long CoT, featuring novel tree-based advantage estimation, which significantly reduces the cost of MC estimation, achieving $7$-$11$ percentage point improvements over GRPO on MATH500 under 2K and 4K context evaluation. We make our code publicly available at https://github.com/AIFrameResearch/SPO.
- Abstract(参考訳): 強化学習(RL)を効果的に活用する大規模言語モデルの推論能力を向上することは、依然として重要な課題である。
既存のアプローチでは、主に2つの対照的な利点推定粒度が採用されている: トークンレベル法(例えば、PPO)は、きめ細かい利点信号を提供することを目標としているが、正確な批評家モデルの訓練が困難であるために不正確な評価に苦しむ。
他方、トラジェクトリレベルの手法(例えばGRPO)は、最終的な報酬から粗い粒度の利点信号のみに依存しており、不正確な信用代入に繋がる。
これらの制約に対処するため、SPO(Segment Policy Optimization)を提案する。Segment Policy Optimization)は、中間粒度でのセグメントレベルの優位性推定を活用し、トラジェクトリレベルのメソッドよりも正確なクレジット割り当てを提供し、トークンレベルのメソッドよりも少ない推定ポイントを提供することでバランスを良くし、批判モデルのないモンテカルロ(MC)に基づく正確な優位性推定を可能にする。
SPOは,(1)フレキシブルセグメント分割,(2)正確なセグメント優位性推定,(3)新しい確率マスク戦略を含むセグメント優位性を用いた政策最適化の3つの新しい戦略を特徴とする。
1) SPO-chain for short chain-of- Thought (CoT)、新しいカットポイントベースのパーティションとチェーンベースのアドバンテージ推定を特徴とし、GSM8K上でのPPOとGRPOよりも精度が6-12$ポイント向上した。
2) SPO-tree for long CoT, feature novel tree-based advantage estimation, which is significantly reduce the cost of MC estimation, achieve 7$-11$ percentage point improve than GRPO on MATH500 under 2K and 4K context evaluation。
コードをhttps://github.com/AIFrameResearch/SPOで公開しています。
関連論文リスト
- Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - KTAE: A Model-Free Algorithm to Key-Tokens Advantage Estimation in Mathematical Reasoning [19.25257653416883]
Key-token Advantage Estimation (KTAE)は、新たなモデルを導入することなく、きめ細かいトークンレベルの利点を推定する新しいアルゴリズムである。
GRPO+KTAEとDAPO+KTAEで訓練されたモデルは、5つの数学的推論ベンチマークにおいてベースライン法より優れていることを示す。
論文 参考訳(メタデータ) (2025-05-22T16:00:33Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [55.06360285372418]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
本研究では,2次報酬設定の下でGRPOの目的を解析し,質問レベルの難易度バイアスの固有の制限を明らかにする。
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z) - Token-Efficient RL for LLM Reasoning [0.02488650627593658]
本稿では,大規模言語モデル (LLM) において,厳密なメモリと計算限界下での推論に適した強化学習戦略を提案する。
ベースラインサブトラクションを用いた早期ポリシー勾配法に基づいて,出力トークンの小さな情報サブセット上で動作する批判のない手法を設計する。
提案手法は,SVAMPベンチマークの精度を46%から70%以上に向上し,マルチ桁乗算において高い性能を示した。
論文 参考訳(メタデータ) (2025-04-29T14:58:43Z) - VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Selective Classification via One-Sided Prediction [54.05407231648068]
片側予測(OSP)に基づく緩和は、実際に関係する高目標精度体制において、ほぼ最適カバレッジが得られるSCスキームをもたらす。
理論的には,SCとOSPのバウンダリ一般化を導出し,その手法が小さな誤差レベルでのカバレッジにおいて,技術手法の状態を強く上回ることを示す。
論文 参考訳(メタデータ) (2020-10-15T16:14:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。