論文の概要: Save the Good Prefix: Precise Error Penalization via Process-Supervised RL to Enhance LLM Reasoning
- arxiv url: http://arxiv.org/abs/2601.18984v1
- Date: Mon, 26 Jan 2026 21:38:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.079332
- Title: Save the Good Prefix: Precise Error Penalization via Process-Supervised RL to Enhance LLM Reasoning
- Title(参考訳): 良い前置詞を節約する: プロセススーパービジョンRLによるLLM推論の精度向上
- Authors: Haolin Liu, Dian Yu, Sidi Lu, Yujun Zhou, Rui Liu, Zhenwen Liang, Haitao Mi, Chen-Yu Wei, Dong Yu,
- Abstract要約: 強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上のための強力なフレームワークとして登場した。
既存のRLアプローチの多くは疎結果報酬に依存しており、部分的に成功した解では正しい中間段階を信用できない。
本稿では、PRMを用いてRL中の最初のエラーをローカライズする検証済み事前修正ポリシー最適化(VPPO)を提案する。
- 参考スコア(独自算出の注目度): 59.76691952347156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has emerged as a powerful framework for improving the reasoning capabilities of large language models (LLMs). However, most existing RL approaches rely on sparse outcome rewards, which fail to credit correct intermediate steps in partially successful solutions. Process reward models (PRMs) offer fine-grained step-level supervision, but their scores are often noisy and difficult to evaluate. As a result, recent PRM benchmarks focus on a more objective capability: detecting the first incorrect step in a reasoning path. However, this evaluation target is misaligned with how PRMs are typically used in RL, where their step-wise scores are treated as raw rewards to maximize. To bridge this gap, we propose Verifiable Prefix Policy Optimization (VPPO), which uses PRMs only to localize the first error during RL. Given an incorrect rollout, VPPO partitions the trajectory into a verified correct prefix and an erroneous suffix based on the first error, rewarding the former while applying targeted penalties only after the detected mistake. This design yields stable, interpretable learning signals and improves credit assignment. Across multiple reasoning benchmarks, VPPO consistently outperforms sparse-reward RL and prior PRM-guided baselines on both Pass@1 and Pass@K.
- Abstract(参考訳): 強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上のための強力なフレームワークとして登場した。
しかし、既存のRLアプローチのほとんどは疎結果報酬に依存しており、部分的に成功した解では正しい中間ステップを信用できない。
プロセス報酬モデル(PRM)は、きめ細かいステップレベルの監視を提供するが、そのスコアはうるさくて評価が難しいことが多い。
その結果、最近のPRMベンチマークでは、推論パスの最初の間違ったステップを検出するという、より客観的な能力に焦点が当てられている。
しかし、この評価対象は、ステップワイズスコアを生の報酬として扱って最大化するRLでのPRMの使用方法に一致しない。
このギャップを埋めるために,PRMを用いてRL中の最初のエラーをローカライズするVPPO(Verifiable Prefix Policy Optimization)を提案する。
不正なロールアウトが与えられた場合、VPPOは、最初のエラーに基づいて、軌道を検証済みの正しい接頭辞と誤接辞に分割し、検出されたミスの後にのみ対象の罰則を適用しながら前者に報償を与える。
この設計により、安定的で解釈可能な学習信号が得られ、信用代入が向上する。
複数の推論ベンチマークを通じて、VPPOは、Pass@1とPass@Kの両方でスパースリワードRLと以前のPRM誘導ベースラインを一貫して上回っている。
関連論文リスト
- InT: Self-Proposed Interventions Enable Credit Assignment in LLM Reasoning [32.274434679047395]
アウトカム・リワード強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上に有効であることが証明された。
標準RLは最終回答のレベルにのみクレジットを割り当て、結果が正しくない場合にすべての推論トレースを罰する。
Invention Training (InT) は、モデルが独自の推論トレースに基づいてきめ細かいクレジット割り当てを行う訓練パラダイムである。
論文 参考訳(メタデータ) (2026-01-20T18:15:38Z) - Local Coherence or Global Validity? Investigating RLVR Traces in Math Domains [13.626335241662977]
Reinforcement Learning with Verifiable Rewards (RLVR)-based post-training of Large Language Models (LLMs) は、推論タスクの精度を向上させることが示されている。
直接インセンティブのない中間トークンに対するRLポストトレーニングの効果について検討する。
論文 参考訳(メタデータ) (2025-10-20T23:58:31Z) - Your Reward Function for RL is Your Best PRM for Search: Unifying RL and Search-Based TTS [62.22644307952087]
本稿では、RLベースと検索ベースTTSの最初の自然統合であるAIRL-Sを紹介する。
逆逆強化学習(AIRL)とグループ相対政策最適化(GRPO)を組み合わせることで、正しい推論トレースから高密度な動的PRMを直接学習する。
提案手法は,GPT-4oと一致して,ベースモデル上での平均9%の性能向上を図っている。
論文 参考訳(メタデータ) (2025-08-19T23:41:15Z) - CAPO: Towards Enhancing LLM Reasoning through Generative Credit Assignment [44.33395106709674]
RLVR(Reinforcement Learning with Verifiable Rewards)は、ルールベースのバイナリフィードバックを使用することで、LLM(Large Language Models)の推論能力を改善した。
現在のRLVRメソッドは、通常、すべてのトークンに同じ報酬を割り当てる。
この粗い粒度のフィードバックは、正確なクレジット割り当てを妨げ、モデルがどの推論ステップが成功または失敗につながるかを特定するのが難しくなる。
論文 参考訳(メタデータ) (2025-08-04T11:06:08Z) - Beyond the First Error: Process Reward Models for Reflective Mathematical Reasoning [49.21525229904197]
本研究では,長いCoT推論プロセスのスコアリングに特化して設計されたPRMのための新しいデータアノテーション手法を提案する。
本稿では, 誤り伝播と誤認識の概念を導入し, PRMの効果的な自己訂正行動と誤ったステップに基づく推論の両方を識別する能力を高めた。
我々のPRMは,探索誘導,BoN,F1スコアなど,様々な指標で優れた性能を実現している。
論文 参考訳(メタデータ) (2025-05-20T14:12:05Z) - Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning [90.23629291067763]
大規模言語モデルにおける推論を改善するための有望なアプローチは、プロセス報酬モデル(PRM)を使用することである。
PRMは多段階の推論トレースの各ステップでフィードバックを提供し、結果報酬モデル(ORM)よりも信用割当を改善する可能性がある。
PRMに対して探索を行ったり、強化学習(RL)の報酬として使ったりすることで、基本方針を改善するために、「プロセス報酬をどう設計すべきか?」と質問する。
理論的には,良質なプロデューサの集合を特徴付けるとともに,このようなプロデューサからのプロセス報酬の最適化が,テスト時間探索やオンラインRLの探索を改善することを示す。
論文 参考訳(メタデータ) (2024-10-10T17:31:23Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。