論文の概要: Unleashing Implicit Rewards: Prefix-Value Learning for Distribution-Level Optimization
- arxiv url: http://arxiv.org/abs/2604.13197v1
- Date: Tue, 14 Apr 2026 18:19:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.248853
- Title: Unleashing Implicit Rewards: Prefix-Value Learning for Distribution-Level Optimization
- Title(参考訳): Unleashing Implicit Rewards: 分散レベル最適化のためのプレフィックス値学習
- Authors: Shiping Gao, Hongzhan Chen, Xiaojun Quan, Qifan Wang, Lifu Huang,
- Abstract要約: インプシットプロセス報酬モデル(PRM)は、推論プロセスに沿ってきめ細かな報酬信号を提供する。
トレーニングはシーケンスレベルの集約のみを制限しますが、推論はローカルステップの品質を反映するためにトークンレベルのスコアが必要です。
本稿では,予測精度を推定するプレフィックス条件付き値関数を直接学習する新しいインプリシット・プレフィックス・バリュー・リワード・モデル(IPVRM)を提案する。
また,サンプルトークンと高確率候補トークンの両方に対してTDの利点を演算する分散レベルRL(DistRL)を提案する。
- 参考スコア(独自算出の注目度): 74.91418266859297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Process reward models (PRMs) provide fine-grained reward signals along the reasoning process, but training reliable PRMs often requires step annotations or heavy verification pipelines, making them expensive to scale and refresh during online RL. Implicit PRMs mitigate this cost by learning decomposable token- or step-level rewards from trajectory-level outcome labels. However, they suffer from a train-inference mismatch: training only constrains a sequence-level aggregate, whereas inference requires token-level scores to reflect local step quality. As a result, token-level credits are weakly identified and may fail to faithfully reflect which reasoning steps are actually correct. This unreliability undermines a key promise of implicit PRMs: scoring many candidate tokens. In practice, noisy per-token advantages may systematically reinforce incorrect continuations. We address this problem with a novel Implicit Prefix-Value Reward Model (IPVRM), which directly learns a prefix-conditioned value function estimating the probability of eventual correctness, and derives step signals via temporal-difference (TD) differences. IPVRM substantially improves step-verification F1 on ProcessBench. Building on these calibrated prefix values, we further propose Distribution-Level RL (DistRL), which computes TD advantages for both sampled tokens and high-probability candidate tokens, enabling dense counterfactual updates without additional rollouts. While DistRL offers limited gains when powered by miscalibrated implicit rewards, it consistently improves downstream reasoning once paired with IPVRM.
- Abstract(参考訳): プロセス報酬モデル(PRM)は推論プロセスに沿ってきめ細かな報酬信号を提供するが、信頼できるPRMのトレーニングにはステップアノテーションや重い検証パイプラインが必要になることが多く、オンラインRL中にスケールとリフレッシュのコストがかかる。
暗黙のPRMは、軌道レベルの成果ラベルから分解可能なトークンまたはステップレベルの報酬を学ぶことで、このコストを軽減します。
トレーニングはシーケンスレベルの集約のみを制限しますが、推論はローカルステップの品質を反映するためにトークンレベルのスコアが必要です。
その結果、トークンレベルのクレジットが弱く特定され、どの推論ステップが実際に正しいかを忠実に反映できない可能性がある。
この信頼性の欠如は暗黙のPRMの鍵となる約束を損なう。
実際には、ノイズ毎の利点は、体系的に誤った継続を補強する可能性がある。
この問題に対処する新しいImplicit Prefix-Value Reward Model (IPVRM) を用いて、最終的な正しさの確率を推定するプレフィックス条件付き値関数を直接学習し、時間差(TD)差によるステップ信号の導出を行う。
IPVRMはProcessBench上のステップ検証F1を大幅に改善する。
これらの校正プレフィックス値に基づいて、サンプルトークンと高確率候補トークンの両方に対してTDの利点を計算し、追加のロールアウトなしで高密度の反ファクト更新を可能にする分散レベルRL(DistRL)を提案する。
DistRLは、誤校正された暗黙の報酬によって、限られたゲインを提供するが、IPVRMとペアになっていれば、ダウンストリーム推論を継続的に改善する。
関連論文リスト
- Save the Good Prefix: Precise Error Penalization via Process-Supervised RL to Enhance LLM Reasoning [59.76691952347156]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上のための強力なフレームワークとして登場した。
既存のRLアプローチの多くは疎結果報酬に依存しており、部分的に成功した解では正しい中間段階を信用できない。
本稿では、PRMを用いてRL中の最初のエラーをローカライズする検証済み事前修正ポリシー最適化(VPPO)を提案する。
論文 参考訳(メタデータ) (2026-01-26T21:38:20Z) - Towards Robust Process Reward Modeling via Noise-aware Learning [33.1289107681179]
騒音の監視を緩和する2段階の枠組みを提案する。
ラベル付け段階では,大言語モデル(LLM)を判断として用いたリフレクション対応ラベル補正機構を導入する。
トレーニング段階において、PRMが徐々にノイズラベルを洗練させるアンダーラインテキストbfIterative underlinetextbfTrainingフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-19T06:03:58Z) - Step Potential Advantage Estimation: Harnessing Intermediate Confidence and Correctness for Efficient Mathematical Reasoning [25.562101968892833]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデル(LLM)における長い連鎖推論を導く
既存のアプローチでは、トークンレベルのエントロピーやシーケンスレベルの長さ制御を通じてRLVRを改善するが、推論の進捗を意味的に基礎づけたステップレベルの尺度は欠如している。
本研究では,潜在的利得を増幅し,潜在的利得をペナルティ化し,飽和後のペナルティを適用してタイムリーな終了を促す,詳細な信用割当手法であるステップ電位アドバンテージ推定(SPAE)を提案する。
論文 参考訳(メタデータ) (2026-01-07T11:36:01Z) - Adversarial Training for Process Reward Models [47.92183495904245]
そこでは、ジェネレータ(G$)が、PRM(R$)を欺くための推論エラーを生成することを学習する。
この相互作用は、R$に対して徐々に強みをもたらし、手動のステップレベルラベルを必要とせずに、その堅牢性を改善し、新しいエラーを一般化する。
論文 参考訳(メタデータ) (2025-11-28T05:32:01Z) - LaSeR: Reinforcement Learning with Last-Token Self-Rewarding [54.72617309922891]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の推論能力を高めるためのコアパラダイムとして登場した。
従来、LLMは2つの異なるプロンプトテンプレートを使用してソリューションと自己検証をシーケンシャルに生成し、効率を大幅に低下させる必要があった。
本稿では,従来のRLVR損失をMSE損失で増大させるアルゴリズムであるLaSeR(Reinforcement Learning with Last-Token Self-Rewarding)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:55:11Z) - ASPO: Asymmetric Importance Sampling Policy Optimization [31.38346888572171]
ポジティブアドバンテージトークンのImportance Smpling(IS)比は不一致であり、正および負のトークンに対するアンバランストークン重み付けにつながる。
このミスマッチは、既に高確率のトークンを過剰に増幅しながら、低確率トークンの更新を抑制する。
我々は,IS比の正アドバンテージトークンを反転させるシンプルかつ効果的な戦略を用いた非対称的重要度サンプリングポリシー最適化(ASPO)を提案する。
論文 参考訳(メタデータ) (2025-10-07T15:54:24Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Free Process Rewards without Process Labels [55.14044050782222]
より安価な応答レベルラベルでORMをトレーニングすることで,テキストシンプルなPRMを追加のコストで得ることができることを示す。
我々の暗黙のPRMは、クロスエントロピー(CE)損失でインスタンス化されると、よりデータ効率が良く、命令1回に1回しか応答しない訓練でも生成モデルを改善することができることを示す。
論文 参考訳(メタデータ) (2024-12-02T21:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。