論文の概要: Self-Guided Process Reward Optimization with Masked Step Advantage for Process Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.01551v1
- Date: Wed, 02 Jul 2025 10:05:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.144823
- Title: Self-Guided Process Reward Optimization with Masked Step Advantage for Process Reinforcement Learning
- Title(参考訳): Masked Step Advantage を用いた自己ガイド型プロセスリワード最適化によるプロセス強化学習
- Authors: Wu Fei, Hao Kong, Shuxian Liang, Yang Lin, Yibo Yang, Jing Tang, Lei Chen, Xiansheng Hua,
- Abstract要約: プロセス認識型RLを実現する新しいフレームワークである textbfSPRO を提案する。
SPROはバニラGRPOより3.4倍高い訓練効率と17.5%の精度で性能が向上した。
特にSPROは、GRPOのような結果管理されたRL法と比較して、工業的実装に有利な計算オーバーヘッドを伴わない。
- 参考スコア(独自算出の注目度): 48.426139299991604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Process Reinforcement Learning~(PRL) has demonstrated considerable potential in enhancing the reasoning capabilities of Large Language Models~(LLMs). However, introducing additional process reward models incurs substantial computational overhead, and there is no unified theoretical framework for process-level advantage estimation. To bridge this gap, we propose \textbf{S}elf-Guided \textbf{P}rocess \textbf{R}eward \textbf{O}ptimization~(\textbf{SPRO}), a novel framework that enables process-aware RL through two key innovations: (1) we first theoretically demonstrate that process rewards can be derived intrinsically from the policy model itself, and (2) we introduce well-defined cumulative process rewards and \textbf{M}asked \textbf{S}tep \textbf{A}dvantage (\textbf{MSA}), which facilitates rigorous step-wise action advantage estimation within shared-prompt sampling groups. Our experimental results demonstrate that SPRO outperforms vaniila GRPO with 3.4x higher training efficiency and a 17.5\% test accuracy improvement. Furthermore, SPRO maintains a stable and elevated policy entropy throughout training while reducing the average response length by approximately $1/3$, evidencing sufficient exploration and prevention of reward hacking. Notably, SPRO incurs no additional computational overhead compared to outcome-supervised RL methods such as GRPO, which benefit industrial implementation.
- Abstract(参考訳): プロセス強化学習~(PRL)は、大規模言語モデル~(LLM)の推論能力を高める大きな可能性を証明している。
しかし、追加のプロセス報酬モデルを導入すると、かなりの計算オーバーヘッドが発生し、プロセスレベルの優位性推定のための統一的な理論的枠組みは存在しない。
このギャップを埋めるために、(1)プロセス報酬がポリシーモデル自体から本質的に導出可能であることを理論的に証明し、(2)よく定義された累積プロセス報酬と、(2) 定義された累積プロセス報酬と、(2) \textbf{S}aked \textbf{S}tep \textbf{A}dvantage (\textbf{MSA})を導入し、共有プロンプトグループ内での厳密なステップ的に有利な評価を容易にする。
実験の結果,SPROはベニラGRPOより3.4倍高いトレーニング効率と17.5倍の精度で優れていた。
さらに、SPROはトレーニングを通じて安定かつ高機能なポリシーエントロピーを維持しつつ、平均応答長を約1/3ドル削減し、十分な探索と報酬ハッキングの防止を実現している。
特にSPROは、GRPOのような結果管理されたRL法と比較して、工業的実装に有利な計算オーバーヘッドを伴わない。
関連論文リスト
- TreeRPO: Tree Relative Policy Optimization [55.97385410074841]
nameは、ツリーサンプリングを用いて、様々な推論ステップで報酬の数学的期待を推定する新しい方法である。
GRPOの集団相対的な報酬訓練機構に基づいて、木サンプリング時に生成されたステップレベルグループに基づいて報酬を革新的に計算する。
論文 参考訳(メタデータ) (2025-06-05T15:56:38Z) - Rewarding the Unlikely: Lifting GRPO Beyond Distribution Sharpening [36.81125165911328]
強化学習は、言語モデルの推論能力を改善する主要な要因として現れています。
本稿では,現在の強化学習アルゴリズムが,すでに解いている問題に関するベースモデルの分布を単に研ぎ澄ましているだけかどうかを考察する。
差分報酬はランクバイアスを緩和し、合成定理と実定理の両方の証明設定において、多種多様な$N$でpass@N$を改善することを示す。
論文 参考訳(メタデータ) (2025-06-03T01:15:15Z) - Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - Reinforced Latent Reasoning for LLM-based Recommendation [83.18146814163308]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z) - DPO Meets PPO: Reinforced Token Optimization for RLHF [35.638723885233475]
本稿では,トークンワイド報酬関数を選好データから学習し,この学習したトークンワイド報酬信号に基づいてポリシー最適化を行うアルゴリズムを提案する。
実験により、texttRTOはPPOや他の直接選好学習アルゴリズムよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-04-29T17:58:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。