論文の概要: Beyond Correctness: Harmonizing Process and Outcome Rewards through RL Training
- arxiv url: http://arxiv.org/abs/2509.03403v1
- Date: Wed, 03 Sep 2025 15:28:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.572481
- Title: Beyond Correctness: Harmonizing Process and Outcome Rewards through RL Training
- Title(参考訳): 正確性を超えて:RLトレーニングによるハーモナイズプロセスとアウトカムリワード
- Authors: Chenlu Ye, Zhou Yu, Ziji Zhang, Hao Chen, Narayanan Sadagopan, Jing Huang, Tong Zhang, Anurag Beniwal,
- Abstract要約: RLVRのアウトカム・リワード・モデル(ORM)は粗い粒度であり、正しい答えの中で欠陥のある推論を区別できない。
Process Reward Models (PRM) は、中間ステップの詳細なガイダンスを提供する。
PRocess cOnsistency Filter (PROF) を導入し, ノイズの多い, きめ細かいプロセス報酬と, 粗い結果報酬とを調和させる。
- 参考スコア(独自算出の注目度): 26.589591658693962
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has emerged to be a predominant paradigm for mathematical reasoning tasks, offering stable improvements in reasoning ability. However, Outcome Reward Models (ORMs) in RLVR are too coarse-grained to distinguish flawed reasoning within correct answers or valid reasoning within incorrect answers. This lack of granularity introduces noisy and misleading gradients significantly and hinders further progress in reasoning process quality. While Process Reward Models (PRMs) offer fine-grained guidance for intermediate steps, they frequently suffer from inaccuracies and are susceptible to reward hacking. To resolve this dilemma, we introduce PRocess cOnsistency Filter (PROF), an effective data process curation method that harmonizes noisy, fine-grained process rewards with accurate, coarse-grained outcome rewards. Rather than naively blending PRM and ORM in the objective function (arXiv:archive/2506.18896), PROF leverages their complementary strengths through consistency-driven sample selection. Our approach retains correct responses with higher averaged process values and incorrect responses with lower averaged process values, while maintaining positive/negative training sample balance. Extensive experiments demonstrate that our method not only consistently improves the final accuracy over $4\%$ compared to the blending approaches, but also strengthens the quality of intermediate reasoning steps. Codes and training recipes are available at https://github.com/Chenluye99/PROF.
- Abstract(参考訳): 検証可能な報酬を伴う強化学習(RLVR)は、数学的推論タスクの主要なパラダイムとして現れ、推論能力の安定した改善を提供している。
しかし、RLVRのアウトカム・リワード・モデル(ORM)は粗い粒度であり、正しい答えの欠陥推論や間違った答えの妥当な推論を区別できない。
この粒度の不足は、ノイズや誤解を招く勾配を著しく引き起こし、推論プロセスの品質のさらなる進歩を妨げる。
Process Reward Models (PRMs) は、中間ステップの詳細なガイダンスを提供するが、しばしば不正確さに悩まされ、ハッキングに報いる可能性がある。
このジレンマを解決するために,PRocess cOnsistency Filter (PROF)を導入した。
目的関数(arXiv:archive/2506.18896)にPRMとORMを鼻で混ぜるのではなく、PROFは一貫性駆動のサンプル選択によって相補的な強みを利用する。
提案手法は, 正/負のトレーニングサンプルバランスを維持しつつ, より高い平均プロセス値と低い平均プロセス値との正の応答を保持する。
実験により, 本手法はブレンディング法と比較して, 最終精度が 4 % 以上向上するだけでなく, 中間推論法の品質も向上することを示した。
コードとトレーニングのレシピはhttps://github.com/Chenluye99/PROF.comで公開されている。
関連論文リスト
- Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty [59.97939500426759]
本稿ではRLCRについて述べる。RLCRは精度と信頼性を共同で向上する推論モデルを訓練する手法である。
多様なデータセット間で、RLCRは精度を損なうことなくキャリブレーションを大幅に改善することを示す。
また,言語的信頼度をテスト時に活用し,精度とキャリブレーションを向上させることも実証した。
論文 参考訳(メタデータ) (2025-07-22T17:56:01Z) - Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。
提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文 参考訳(メタデータ) (2025-06-10T12:59:14Z) - The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning [43.310209758380886]
検証可能な報酬を伴う強化学習(RLVR)は、言語モデル(LM)のトレーニングに有望なアプローチである
我々は学習信号を正しい応答の強化と正負の正負の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の
我々は、NSRが不正確な世代を抑え、確率質量を他の可算候補に向けて再分配することで、モデルの以前の信念に導かれることを示す。
論文 参考訳(メタデータ) (2025-06-02T06:10:54Z) - ReARTeR: Retrieval-Augmented Reasoning with Trustworthy Process Rewarding [25.329712997545794]
ReARTeR(Retrieval-Augmented Reasoning)を提案する。
ReARTeRは、ポストトレーニングとテストタイムスケーリングを通じて、RAGシステムの推論能力を向上する。
マルチステップ推論ベンチマークの実験結果から,大幅な改善が示された。
論文 参考訳(メタデータ) (2025-01-14T05:56:26Z) - Adaptive Segment-level Reward: Bridging the Gap Between Action and Reward Space in Alignment [13.087267214534727]
強化学習(RL)は大規模言語モデル(LLM)と人間の嗜好の整合に極めて効果的であることが証明されている。
典型的なRL法は、全体的なシーケンス報酬の下で最適化され、最適以下の学習プロセスにつながる可能性がある。
これは重要なクレジット割り当ての問題、すなわち、強化または抑制するトークンを特定することを反映している。
論文 参考訳(メタデータ) (2024-10-23T16:16:15Z) - Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning [90.23629291067763]
大規模言語モデルにおける推論を改善するための有望なアプローチは、プロセス報酬モデル(PRM)を使用することである。
PRMは多段階の推論トレースの各ステップでフィードバックを提供し、結果報酬モデル(ORM)よりも信用割当を改善する可能性がある。
PRMに対して探索を行ったり、強化学習(RL)の報酬として使ったりすることで、基本方針を改善するために、「プロセス報酬をどう設計すべきか?」と質問する。
理論的には,良質なプロデューサの集合を特徴付けるとともに,このようなプロデューサからのプロセス報酬の最適化が,テスト時間探索やオンラインRLの探索を改善することを示す。
論文 参考訳(メタデータ) (2024-10-10T17:31:23Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。