論文の概要: Process Rewards with Learned Reliability
- arxiv url: http://arxiv.org/abs/2605.15529v1
- Date: Fri, 15 May 2026 01:57:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 17:44:16.294191
- Title: Process Rewards with Learned Reliability
- Title(参考訳): 学習された信頼性を伴うプロセスのリワード
- Authors: Jinyuan Li, Langlin Huang, Chengsong Huang, Shaoyang Xu, Donghong Cai, Yuyi Yang, Wenxuan Zhang, Jiaxin Huang,
- Abstract要約: 下流の手法は、不完全なステップレベルの報酬予測を信頼できる決定信号として扱わなければならない。
ステップレベルの成功確率と,その予測の信頼性の両方を予測する分散PRMであるBetaPRMを提案する。
BetaPRMは、標準ステップレベルのエラー検出を保ちながら、PRM誘導のベストオブN選択を改善する。
- 参考スコア(独自算出の注目度): 25.86885718567082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Process Reward Models (PRMs) provide step-level feedback for reasoning, but current PRMs usually output only a single reward score for each step. Downstream methods must therefore treat imperfect step-level reward predictions as reliable decision signals, with no indication of when these predictions should be trusted. We propose BetaPRM, a distributional PRM that predicts both a step-level success probability and the reliability of that prediction. Given step-success supervision from Monte Carlo continuations, BetaPRM learns a Beta belief that explains the observed number of successful continuations through a Beta-Binomial likelihood, rather than regressing to the finite-sample success ratio as a point target. This learned reliability signal indicates when a step reward should be trusted, enabling downstream applications to distinguish reliable rewards from uncertain ones. As one application, we introduce Adaptive Computation Allocation (ACA) for PRM-guided Best-of-N reasoning. ACA uses the learned reliability signal to stop when a high-reward solution is reliable and to spend additional computation on uncertain candidate prefixes. Experiments across four backbones and four reasoning benchmarks show that BetaPRM improves PRM-guided Best-of-N selection while preserving standard step-level error detection. Built on this signal, ACA improves the accuracy--token tradeoff over fixed-budget Best-of-16, reducing token usage by up to 33.57% while improving final-answer accuracy.
- Abstract(参考訳): プロセスリワードモデル(PRM)は推論のためのステップレベルのフィードバックを提供するが、現在のPRMは通常、各ステップに対して1つの報酬スコアしか出力しない。
したがって、下流の手法では、不完全なステップレベルの報酬予測を信頼できる決定信号として扱わなければならない。
ステップレベルの成功確率と,その予測の信頼性の両方を予測する分散PRMであるBetaPRMを提案する。
モンテカルロ連続からステップ・サクセスの監督を受けると、BetaPRMは、点目標として有限サンプルの成功率に回帰するのではなく、ベータ・ビノミカルな可能性を通じて成功した連続の観測回数を説明するベータ信念を学ぶ。
この学習された信頼性信号は、ステップ報酬がいつ信頼できるかを示し、下流のアプリケーションが信頼性の高い報酬と不確実な報酬を区別できるようにする。
1つの応用として、PRM誘導Best-of-N推論のための適応計算割当(ACA)を導入する。
ACAは、学習された信頼性信号を使用して、ハイリワード解が信頼できる場合に停止し、不確実な候補プレフィックスにさらなる計算を費やす。
4つのバックボーンと4つの推論ベンチマークによる実験により、BetaPRMは標準的なステップレベルのエラー検出を保ちながら、PRM誘導のベストオブN選択を改善することが示された。
この信号に基づいて構築されたACAは、固定予算のBest-of-16よりも高精度なトレードオフを改善し、トークンの使用量を最大33.57%削減し、最終回答の精度を向上する。
関連論文リスト
- Conformal Path Reasoning: Trustworthy Knowledge Graph Question Answering via Path-Level Calibration [31.29584002718744]
本稿では,2つの重要なイノベーションを持つ信頼性の高いKGQAフレームワークであるConformal Path Reasoning (CPR)を提案する。
まず、経路レベルのスコアに対してクエリレベルの共形キャリブレーションを行い、経路予測セットを生成しながら交換性を維持する。
第2にResidual Conformal Value Network (RCVNet)を導入する。これはPUCT誘導探索によって訓練された軽量モジュールで、識別パスレベルの非整合性スコアを学習する。
論文 参考訳(メタデータ) (2026-05-08T17:57:13Z) - Distributional Process Reward Models: Calibrated Prediction of Future Rewards via Conditional Optimal Transport [6.379494871147752]
インタイムスケーリング手法はプロセス・リワード・モデル(PRM)に依存している。
本研究では, PRMの校正, 条件OT(CondOT)マップ学習 citebunne2022 の修正, 単調条件量子関数の推定における条件最適輸送の最初の利用を提案する。
これにより、構造的に有効な量子的推定が得られ、任意のレベルでの信頼境界の効率的な抽出が可能となる。
論文 参考訳(メタデータ) (2026-05-07T18:00:04Z) - Unleashing Implicit Rewards: Prefix-Value Learning for Distribution-Level Optimization [74.91418266859297]
インプシットプロセス報酬モデル(PRM)は、推論プロセスに沿ってきめ細かな報酬信号を提供する。
トレーニングはシーケンスレベルの集約のみを制限しますが、推論はローカルステップの品質を反映するためにトークンレベルのスコアが必要です。
本稿では,予測精度を推定するプレフィックス条件付き値関数を直接学習する新しいインプリシット・プレフィックス・バリュー・リワード・モデル(IPVRM)を提案する。
また,サンプルトークンと高確率候補トークンの両方に対してTDの利点を演算する分散レベルRL(DistRL)を提案する。
論文 参考訳(メタデータ) (2026-04-14T18:19:54Z) - Save the Good Prefix: Precise Error Penalization via Process-Supervised RL to Enhance LLM Reasoning [59.76691952347156]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上のための強力なフレームワークとして登場した。
既存のRLアプローチの多くは疎結果報酬に依存しており、部分的に成功した解では正しい中間段階を信用できない。
本稿では、PRMを用いてRL中の最初のエラーをローカライズする検証済み事前修正ポリシー最適化(VPPO)を提案する。
論文 参考訳(メタデータ) (2026-01-26T21:38:20Z) - Step Potential Advantage Estimation: Harnessing Intermediate Confidence and Correctness for Efficient Mathematical Reasoning [25.562101968892833]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデル(LLM)における長い連鎖推論を導く
既存のアプローチでは、トークンレベルのエントロピーやシーケンスレベルの長さ制御を通じてRLVRを改善するが、推論の進捗を意味的に基礎づけたステップレベルの尺度は欠如している。
本研究では,潜在的利得を増幅し,潜在的利得をペナルティ化し,飽和後のペナルティを適用してタイムリーな終了を促す,詳細な信用割当手法であるステップ電位アドバンテージ推定(SPAE)を提案する。
論文 参考訳(メタデータ) (2026-01-07T11:36:01Z) - ZIP-RC: Optimizing Test-Time Compute via Zero-Overhead Joint Reward-Cost Prediction [57.799425838564]
ZIP-RCは、モデルに報酬とコストのゼロオーバーヘッド推論時間予測を持たせる適応推論手法である。
ZIP-RCは、同じまたはより低い平均コストで過半数投票よりも最大12%精度が向上する。
論文 参考訳(メタデータ) (2025-12-01T09:44:31Z) - Cautious Next Token Prediction [62.74127603725369]
我々は、CNTP(Cautious Next Token Prediction)と呼ばれる新しいトレーニングフリーデコード戦略を提案する。
復号過程において、モデルが特定のステップで比較的高い予測エントロピーを持つ場合、独立にステップから始まる複数の試行をサンプリングし、句読点に遭遇する際に停止する。
提案するCNTPアプローチは,既存の標準復号方式よりも明確なマージンで一貫した性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-07-03T05:49:18Z) - Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence
Scores from Language Models Fine-Tuned with Human Feedback [91.22679548111127]
信頼できる現実世界の予測システムは、よく校正された信頼スコアを生成するべきである。
出力トークンとして出力される言語的信頼度は、通常、モデルの条件付き確率よりも良く校正されていることを示す。
論文 参考訳(メタデータ) (2023-05-24T10:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。