論文の概要: Self-Guided Process Reward Optimization with Redefined Step-wise Advantage for Process Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.01551v2
- Date: Thu, 03 Jul 2025 10:33:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 13:25:27.65037
- Title: Self-Guided Process Reward Optimization with Redefined Step-wise Advantage for Process Reinforcement Learning
- Title(参考訳): プロセス強化学習のためのステップワイド・アドバンテージを再定義した自己ガイド型プロセスリワード最適化
- Authors: Wu Fei, Hao Kong, Shuxian Liang, Yang Lin, Yibo Yang, Jing Tang, Lei Chen, Xiansheng Hua,
- Abstract要約: プロセス認識型RLを実現する新しいフレームワークである textbfSPRO を提案する。
SPROはバニラGRPOより3.4倍高い訓練効率と17.5%の精度で性能が向上した。
特にSPROは、GRPOのような結果管理されたRL法と比較して、工業的実装に有利な計算オーバーヘッドを伴わない。
- 参考スコア(独自算出の注目度): 48.426139299991604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Process Reinforcement Learning~(PRL) has demonstrated considerable potential in enhancing the reasoning capabilities of Large Language Models~(LLMs). However, introducing additional process reward models incurs substantial computational overhead, and there is no unified theoretical framework for process-level advantage estimation. To bridge this gap, we propose \textbf{S}elf-Guided \textbf{P}rocess \textbf{R}eward \textbf{O}ptimization~(\textbf{SPRO}), a novel framework that enables process-aware RL through two key innovations: (1) we first theoretically demonstrate that process rewards can be derived intrinsically from the policy model itself, and (2) we introduce well-defined cumulative process rewards and \textbf{M}asked \textbf{S}tep \textbf{A}dvantage (\textbf{MSA}), which facilitates rigorous step-wise action advantage estimation within shared-prompt sampling groups. Our experimental results demonstrate that SPRO outperforms vaniila GRPO with 3.4x higher training efficiency and a 17.5\% test accuracy improvement. Furthermore, SPRO maintains a stable and elevated policy entropy throughout training while reducing the average response length by approximately $1/3$, evidencing sufficient exploration and prevention of reward hacking. Notably, SPRO incurs no additional computational overhead compared to outcome-supervised RL methods such as GRPO, which benefit industrial implementation.
- Abstract(参考訳): プロセス強化学習~(PRL)は、大規模言語モデル~(LLM)の推論能力を高める大きな可能性を証明している。
しかし、追加のプロセス報酬モデルを導入すると、かなりの計算オーバーヘッドが発生し、プロセスレベルの優位性推定のための統一的な理論的枠組みは存在しない。
このギャップを埋めるために、(1)プロセス報酬がポリシーモデル自体から本質的に導出可能であることを理論的に証明し、(2)よく定義された累積プロセス報酬と、(2) 定義された累積プロセス報酬と、(2) \textbf{S}aked \textbf{S}tep \textbf{A}dvantage (\textbf{MSA})を導入し、共有プロンプトグループ内での厳密なステップ的に有利な評価を容易にする。
実験の結果,SPROはベニラGRPOより3.4倍高いトレーニング効率と17.5倍の精度で優れていた。
さらに、SPROはトレーニングを通じて安定かつ高機能なポリシーエントロピーを維持しつつ、平均応答長を約1/3ドル削減し、十分な探索と報酬ハッキングの防止を実現している。
特にSPROは、GRPOのような結果管理されたRL法と比較して、工業的実装に有利な計算オーバーヘッドを伴わない。
関連論文リスト
- Posterior-GRPO: Rewarding Reasoning Processes in Code Generation [7.893963076886232]
強化学習は大規模言語モデルのコード生成に大きく進歩した。
現在のパラダイムは、中間的推論プロセスの品質を無視して、テストケースから得られる結果に基づく報酬に依存しています。
本稿では,RLにおける推論プロセスの品質を効果的に活用する統合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-07T09:04:10Z) - Truncated Proximal Policy Optimization [43.965892659920364]
Truncated Proximal Policy Optimization (T-PPO)は、ポリシー更新と長さ制限された応答生成を合理化することで、トレーニング効率を向上させる。
不完全な応答から導かれる利点推定のための拡張一般化アドバンテージ推定(EGAE)を提案する。
我々は,32Bベースモデルを用いたAIME 2024におけるT-PPOの有効性と有効性を示した。
論文 参考訳(メタデータ) (2025-06-18T01:21:38Z) - TreeRPO: Tree Relative Policy Optimization [55.97385410074841]
nameは、ツリーサンプリングを用いて、様々な推論ステップで報酬の数学的期待を推定する新しい方法である。
GRPOの集団相対的な報酬訓練機構に基づいて、木サンプリング時に生成されたステップレベルグループに基づいて報酬を革新的に計算する。
論文 参考訳(メタデータ) (2025-06-05T15:56:38Z) - Rewarding the Unlikely: Lifting GRPO Beyond Distribution Sharpening [36.81125165911328]
強化学習は、言語モデルの推論能力を改善する主要な要因として現れています。
本稿では,現在の強化学習アルゴリズムが,すでに解いている問題に関するベースモデルの分布を単に研ぎ澄ましているだけかどうかを考察する。
差分報酬はランクバイアスを緩和し、合成定理と実定理の両方の証明設定において、多種多様な$N$でpass@N$を改善することを示す。
論文 参考訳(メタデータ) (2025-06-03T01:15:15Z) - Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - Reinforced Latent Reasoning for LLM-based Recommendation [83.18146814163308]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z) - Entropy-Regularized Process Reward Model [30.279394036823092]
大規模言語モデル(LLM)は、複雑な多段階推論を行う上で有望であるが、数学的推論に苦慮し続けている。
KL規則化マルコフ決定プロセス(MDP)を統合したエントロピー規則化プロセス報酬モデル(ER-PRM)を提案する。
MATHとGSM8Kベンチマークの実証実験により、ER-PRMは既存のプロセス報酬モデルより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-12-15T01:09:23Z) - Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning [90.23629291067763]
大規模言語モデルにおける推論を改善するための有望なアプローチは、プロセス報酬モデル(PRM)を使用することである。
PRMは多段階の推論トレースの各ステップでフィードバックを提供し、結果報酬モデル(ORM)よりも信用割当を改善する可能性がある。
PRMに対して探索を行ったり、強化学習(RL)の報酬として使ったりすることで、基本方針を改善するために、「プロセス報酬をどう設計すべきか?」と質問する。
理論的には,良質なプロデューサの集合を特徴付けるとともに,このようなプロデューサからのプロセス報酬の最適化が,テスト時間探索やオンラインRLの探索を改善することを示す。
論文 参考訳(メタデータ) (2024-10-10T17:31:23Z) - DPO Meets PPO: Reinforced Token Optimization for RLHF [35.638723885233475]
本稿では,トークンワイド報酬関数を選好データから学習し,この学習したトークンワイド報酬信号に基づいてポリシー最適化を行うアルゴリズムを提案する。
実験により、texttRTOはPPOや他の直接選好学習アルゴリズムよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-04-29T17:58:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。