論文の概要: LLM Reasoning with Process Rewards for Outcome-Guided Steps
- arxiv url: http://arxiv.org/abs/2604.02341v1
- Date: Sun, 08 Feb 2026 06:38:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.303633
- Title: LLM Reasoning with Process Rewards for Outcome-Guided Steps
- Title(参考訳): アウトカムガイドステップのためのプロセスリワードを用いたLCM推論
- Authors: Mohammad Rezaei, Jens Lehmann, Sahar Vahdati,
- Abstract要約: プロセス報酬モデル(PRM)を導入し、中間段階のスコアとより密集した監視を行う。
PRMスコアは最終的な正しさと不完全な整合性を持つことが多く、不正確な答えで終わっている局所的な流動的な推論に報酬を与えることができる。
結果の正しさを優位に保ちつつ,PRMを活用するフレームワークであるPROGRSを提案する。
- 参考スコア(独自算出の注目度): 7.3312414850609215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mathematical reasoning in large language models has improved substantially with reinforcement learning using verifiable rewards, where final answers can be checked automatically and converted into reliable training signals. Most such pipelines optimize outcome correctness only, which yields sparse feedback for long, multi-step solutions and offers limited guidance on intermediate reasoning errors. Recent work therefore introduces process reward models (PRMs) to score intermediate steps and provide denser supervision. In practice, PRM scores are often imperfectly aligned with final correctness and can reward locally fluent reasoning that still ends in an incorrect answer. When optimized as absolute rewards, such signals can amplify fluent failure modes and induce reward hacking. We propose PROGRS, a framework that leverages PRMs while keeping outcome correctness dominant. PROGRS treats process rewards as relative preferences within outcome groups rather than absolute targets. We introduce outcome-conditioned centering, which shifts PRM scores of incorrect trajectories to have zero mean within each prompt group. It removes systematic bias while preserving informative rankings. PROGRS combines a frozen quantile-regression PRM with a multi-scale coherence evaluator. We integrate the resulting centered process bonus into Group Relative Policy Optimization (GRPO) without auxiliary objectives or additional trainable components. Across MATH-500, AMC, AIME, MinervaMath, and OlympiadBench, PROGRS consistently improves Pass@1 over outcome-only baselines and achieves stronger performance with fewer rollouts. These results show that outcome-conditioned centering enables safe and effective use of process rewards for mathematical reasoning.
- Abstract(参考訳): 大きな言語モデルにおける数学的推論は、検証可能な報酬を用いて強化学習によって大幅に改善され、最終的な答えは自動的にチェックされ、信頼性のある訓練信号に変換される。
このようなパイプラインのほとんどは結果の正当性のみを最適化しており、長いマルチステップのソリューションに対して疎いフィードバックをもたらし、中間推論エラーに関する限られたガイダンスを提供する。
したがって、最近の研究はプロセス報酬モデル(PRM)を導入し、中間段階を記録し、より密集した監督を提供する。
実際には、PRMスコアは最終的な正しさと不完全な整合性を持つことが多く、不正確な答えで終わっている局所的な流動的な推論に報酬を与えることができる。
絶対報酬として最適化されると、そのような信号は流動的な障害モードを増幅し、報酬のハッキングを引き起こす。
結果の正しさを優位に保ちつつ,PRMを活用するフレームワークであるPROGRSを提案する。
PROGRSはプロセス報酬を絶対目標ではなく結果グループ内の相対的な選好として扱う。
結果条件付き中心化を導入し,不正確な軌道のPRMスコアを各プロンプト群の平均値ゼロにシフトする。
情報的ランキングを維持しながら、体系的なバイアスを取り除く。
PROGRSは凍結量子回帰PRMとマルチスケールコヒーレンス評価器を組み合わせた。
得られた中心的なプロセスボーナスを、補助的な目的や追加のトレーニング可能なコンポーネントなしで、グループ相対政策最適化(GRPO)に統合します。
MATH-500、AMC、AIME、MinervaMath、OlympiadBenchでは、proGRSは結果のみのベースラインよりもPass@1を一貫して改善し、ロールアウトの少ないパフォーマンスを実現している。
これらの結果から,結果条件付きセンタリングにより,数学的推論のためのプロセス報酬を安全かつ効果的に活用できることが示唆された。
関連論文リスト
- Unleashing Implicit Rewards: Prefix-Value Learning for Distribution-Level Optimization [74.91418266859297]
インプシットプロセス報酬モデル(PRM)は、推論プロセスに沿ってきめ細かな報酬信号を提供する。
トレーニングはシーケンスレベルの集約のみを制限しますが、推論はローカルステップの品質を反映するためにトークンレベルのスコアが必要です。
本稿では,予測精度を推定するプレフィックス条件付き値関数を直接学習する新しいインプリシット・プレフィックス・バリュー・リワード・モデル(IPVRM)を提案する。
また,サンプルトークンと高確率候補トークンの両方に対してTDの利点を演算する分散レベルRL(DistRL)を提案する。
論文 参考訳(メタデータ) (2026-04-14T18:19:54Z) - PAPO: Stabilizing Rubric Integration Training via Decoupled Advantage Normalization [31.935482701047544]
本稿では,既存の報酬設計の2つの制約に対処するプロセスアウェア・ポリシー・オプティマイズ(PAPO)を提案する。
PAPOはプロセスレベルの評価をグループ相対政策最適化(GRPO)に統合する。
複数のモデルスケールと6つのベンチマークの実験は、PAPOがORMを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2026-03-27T15:48:13Z) - Save the Good Prefix: Precise Error Penalization via Process-Supervised RL to Enhance LLM Reasoning [59.76691952347156]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上のための強力なフレームワークとして登場した。
既存のRLアプローチの多くは疎結果報酬に依存しており、部分的に成功した解では正しい中間段階を信用できない。
本稿では、PRMを用いてRL中の最初のエラーをローカライズする検証済み事前修正ポリシー最適化(VPPO)を提案する。
論文 参考訳(メタデータ) (2026-01-26T21:38:20Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Beyond Correctness: Harmonizing Process and Outcome Rewards through RL Training [26.589591658693962]
RLVRのアウトカム・リワード・モデル(ORM)は粗い粒度であり、正しい答えの中で欠陥のある推論を区別できない。
Process Reward Models (PRM) は、中間ステップの詳細なガイダンスを提供する。
PRocess cOnsistency Filter (PROF) を導入し, ノイズの多い, きめ細かいプロセス報酬と, 粗い結果報酬とを調和させる。
論文 参考訳(メタデータ) (2025-09-03T15:28:51Z) - Good Learners Think Their Thinking: Generative PRM Makes Large Reasoning Model More Efficient Math Learner [31.033131727230277]
大規模推論モデル(LRM)は、Reinforcement Learning (RL) で最適化された複雑な数学問題の解法において、最近約束されている。
本稿では,RLに基づく学習における大きなボトルネックに対処するため,思考レベルで機能する固有信号駆動型生成過程評価機構を提案する。
1.5B と 7B のパラメータ LRM を用いた実験により,結果のみの報酬ベースラインよりもトレーニングサンプルが有意に少ない問題解精度が得られた。
論文 参考訳(メタデータ) (2025-07-31T07:54:58Z) - Off-Policy Corrected Reward Modeling for Reinforcement Learning from Human Feedback [52.1410307583181]
我々は、ヒューマンフィードバックからの強化学習を用いて、複雑な人間の嗜好に従うために言語モデル(LM)を訓練する。
トレーニングが進むにつれて、LMが生成する応答は、報酬モデル(RM)の応答にもはや似ていない。
新しいラベルやサンプルを必要とせず、重み付けによりRMを補正するオフポリティ補正リワードモデリングを提案する。
論文 参考訳(メタデータ) (2025-07-21T11:19:04Z) - Free Process Rewards without Process Labels [55.14044050782222]
より安価な応答レベルラベルでORMをトレーニングすることで,テキストシンプルなPRMを追加のコストで得ることができることを示す。
我々の暗黙のPRMは、クロスエントロピー(CE)損失でインスタンス化されると、よりデータ効率が良く、命令1回に1回しか応答しない訓練でも生成モデルを改善することができることを示す。
論文 参考訳(メタデータ) (2024-12-02T21:20:02Z) - WARM: On the Benefits of Weight Averaged Reward Models [63.08179139233774]
Weight Averaged Reward Models (WARM) を提案する。
最良N法とRL法を用いた要約タスクの実験は、WARMがLLM予測の全体的な品質とアライメントを改善することを示す。
論文 参考訳(メタデータ) (2024-01-22T18:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。