論文の概要: Distributional Process Reward Models: Calibrated Prediction of Future Rewards via Conditional Optimal Transport
- arxiv url: http://arxiv.org/abs/2605.06785v2
- Date: Tue, 12 May 2026 15:55:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 18:21:06.812664
- Title: Distributional Process Reward Models: Calibrated Prediction of Future Rewards via Conditional Optimal Transport
- Title(参考訳): 分散プロセス・リワードモデル:条件付き最適輸送による将来のリワードの校正予測
- Authors: Rachel Ma, Dylan Hadfield-Menell, Kristjan Greenewald,
- Abstract要約: インタイムスケーリング手法はプロセス・リワード・モデル(PRM)に依存している。
本研究では, PRMの校正, 条件OT(CondOT)マップ学習 citebunne2022 の修正, 単調条件量子関数の推定における条件最適輸送の最初の利用を提案する。
これにより、構造的に有効な量子的推定が得られ、任意のレベルでの信頼境界の効率的な抽出が可能となる。
- 参考スコア(独自算出の注目度): 6.379494871147752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inference-time scaling methods rely on Process Reward Models (PRMs), which are often poorly calibrated and overestimate success probabilities. We propose, to our knowledge, the first use of conditional optimal transport for calibrating PRMs, modifying conditional OT (CondOT) map learning \cite{bunne2022supervised} to estimate a monotonic conditional quantile function over success probabilities estimated by the PRM, conditioned on PRM hidden states. This yields structurally valid quantile estimates and enables efficient extraction of confidence bounds at arbitrary levels, which we integrate into the instance-adaptive scaling (IAS) framework of \cite{park2025know}. We evaluate on mathematical reasoning benchmarks spanning moderate-difficulty problems (MATH-500) and harder out-of-distribution problems (AIME). For PRMs with reliable ranking signals, our method substantially improves calibration over both uncalibrated PRMs and quantile regression. On downstream Best-of-N IAS performance, our method generally improves over uncalibrated PRMs. These results establish conditional optimal transport as another principled and practical approach to PRM calibration, offering structural guarantees and flexible uncertainty estimation.
- Abstract(参考訳): 推論時間スケーリングの手法はプロセス・リワード・モデル(PRM)に依存している。
我々は,PRMの校正や条件OT (CondOT) Map Learning \cite{bunne2022supervised} の修正,PRMによって推定される成功確率よりも単調な条件量子関数を推定するために,PRMを校正するための条件最適輸送の最初の利用を提案する。
これにより、構造的に有効な量子的推定が得られ、任意のレベルでの信頼境界の効率的な抽出が可能となり、これは \cite{park2025know} のインスタンス適応スケーリング(IAS)フレームワークに統合される。
我々は,中等微分問題 (MATH-500) と難解分布問題 (AIME) にまたがる数学的推論ベンチマークについて検討した。
信頼性の高いランキング信号を持つPRMでは、未校正PRMの校正と量子レグレッションの両方を大幅に改善する。
ダウンストリームのBest-of-N IAS性能において,本手法は一般に非校正型PRMよりも改善される。
これらの結果は、PRMキャリブレーションに対する他の原則および実践的なアプローチとして条件最適輸送を確立し、構造的保証とフレキシブルな不確実性推定を提供する。
関連論文リスト
- Learning Ordinal Probabilistic Reward from Preferences [25.069054134899744]
確率的リワードモデル(PRM: Probabilistic Reward Model)を提案する。
提案手法では,報酬を決定論的スカラーとしてモデル化する代わりに,ランダム変数として扱い,各応答の品質の完全な確率分布を学習する。
OPRM上に構築したRerea Flooding Tuning(RgFT)と呼ばれるデータ効率のトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2026-02-13T06:43:02Z) - Know What You Don't Know: Uncertainty Calibration of Process Reward Models [6.091078936502421]
プロセス報酬モデル(PRM)は、推論時間スケーリングアルゴリズムの導出において中心的な役割を果たす。
PRMは、部分的推論ステップが正しい最終回答につながる成功確率を過大評価する傾向がある。
PRM出力を調整して真の成功確率に適合させるキャリブレーション手法を提案する。
論文 参考訳(メタデータ) (2025-06-11T02:39:26Z) - The Lessons of Developing Process Reward Models in Mathematical Reasoning [62.165534879284735]
Process Reward Models (PRM) は、推論プロセスにおける中間エラーを特定し、緩和することを目的としている。
我々は,モンテカルロ (MC) 推定とLarge Language Models (LLM) を効果的に統合するコンセンサスフィルタリング機構を開発した。
私たちは、既存のオープンソース代替品よりも優れた、最先端のPRMを新たにリリースしています。
論文 参考訳(メタデータ) (2025-01-13T13:10:16Z) - Process Reward Model with Q-Value Rankings [18.907163177605607]
プロセス・リワード・モデリング(PRM)は複雑な推論と意思決定に不可欠である。
本稿では,マルコフ決定プロセスの文脈でPRMを再定義する新しいフレームワークであるProcess Q-value Model(PQM)を紹介する。
PQMは、新しい比較損失関数に基づいてQ値ランキングを最適化し、シーケンシャルな決定の中で複雑なダイナミクスをキャプチャするモデルの能力を向上する。
論文 参考訳(メタデータ) (2024-10-15T05:10:34Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Evaluating probabilistic classifiers: Reliability diagrams and score
decompositions revisited [68.8204255655161]
確率的に統計的に一貫性があり、最適に結合し、再現可能な信頼性図を自動生成するCORP手法を導入する。
コーパスは非パラメトリックアイソトニック回帰に基づいており、プール・アジャセント・ヴァイオレータ(PAV)アルゴリズムによって実装されている。
論文 参考訳(メタデータ) (2020-08-07T08:22:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。