論文の概要: Know What You Don't Know: Uncertainty Calibration of Process Reward Models
- arxiv url: http://arxiv.org/abs/2506.09338v1
- Date: Wed, 11 Jun 2025 02:39:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.219791
- Title: Know What You Don't Know: Uncertainty Calibration of Process Reward Models
- Title(参考訳): 知らないことを知る:プロセスリワードモデルの不確かさの校正
- Authors: Young-Jin Park, Kristjan Greenewald, Kaveh Alim, Hao Wang, Navid Azizan,
- Abstract要約: 最先端のPRMでさえ、キャリブレーションが不十分であり、しばしば成功確率を過大評価することができる。
我々は、PRM出力が真の成功確率によく適合するように、量子レグレッションによって行われるキャリブレーション手法を提案する。
- 参考スコア(独自算出の注目度): 8.958124143194512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Process reward models (PRMs) play a central role in guiding inference-time scaling algorithms for large language models (LLMs). However, we observe that even state-of-the-art PRMs can be poorly calibrated and often overestimate success probabilities. To address this, we present a calibration approach, performed via quantile regression, that adjusts PRM outputs to better align with true success probabilities. Leveraging these calibrated success estimates and their associated confidence bounds, we introduce an \emph{instance-adaptive scaling} (IAS) framework that dynamically adjusts the inference budget based on the estimated likelihood that a partial reasoning trajectory will yield a correct final answer. Unlike conventional methods that allocate a fixed number of reasoning trajectories per query, this approach successfully adapts to each instance and reasoning step when using our calibrated PRMs. Experiments on mathematical reasoning benchmarks show that (i) our PRM calibration method successfully achieves small calibration error, outperforming the baseline methods, (ii) calibration is crucial for enabling effective adaptive scaling, and (iii) the proposed IAS strategy reduces inference costs while maintaining final answer accuracy, utilizing less compute on more confident problems as desired.
- Abstract(参考訳): プロセス報酬モデル(PRM)は、大規模言語モデル(LLM)の推論時間スケーリングアルゴリズムの導出において中心的な役割を果たす。
しかし、最先端のPRMでさえ校正が不十分であり、しばしば成功確率を過大評価することができる。
そこで本研究では,PRM出力を調整し,真の成功確率と整合するキャリブレーション手法を提案する。
これらのキャリブレーションされた成功推定とそれに伴う信頼境界を活用して、部分的推論軌道が正しい最終回答をもたらすという推定に基づいて推論予算を動的に調整する 'emph{instance-adaptive Scaling} (IAS) フレームワークを導入する。
クエリ毎に一定の数の推論トラジェクトリを割り当てる従来の方法とは異なり、このアプローチは、キャリブレーションされたPRMを使用する場合、各インスタンスと推論ステップにうまく適応する。
数学的推論ベンチマークの実験は、それを示している。
i) PRMキャリブレーション法は, 精度の低いキャリブレーション誤差を実現し, ベースライン法よりも優れていた。
(II)効果的な適応スケーリングの実現にはキャリブレーションが不可欠であり、
三 提案したIAS戦略は、最終回答の正確性を維持しつつ、予測コストを低減し、より確実な問題に対する計算量の削減を図る。
関連論文リスト
- Calibration Strategies for Robust Causal Estimation: Theoretical and Empirical Insights on Propensity Score-Based Estimators [0.6562256987706128]
推定と校正のためのデータの分割は、確率スコアに基づく推定器の性能に重大な影響を及ぼす。
提案手法は,確率スコア推定のためのキャリブレーション手法の最近の進歩を延長し,挑戦的な設定における確率スコアの堅牢性を向上させる。
論文 参考訳(メタデータ) (2025-03-21T16:41:10Z) - Calibrating Long-form Generations from Large Language Models [34.72041258464477]
大きな言語モデル(LLM)の信頼性スコアは、その応答が正しいという実際の可能性と一致すべきである。
現在の信頼性評価手法とキャリブレーション基準は、応答の正しさを2値の真/偽評価に頼っている。
本稿では,LLMの応答の正しさと関連する信頼度の両方を,様々なスコアの分布として扱う統一校正フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-09T17:00:32Z) - Calibration by Distribution Matching: Trainable Kernel Calibration
Metrics [56.629245030893685]
カーネルベースのキャリブレーションメトリクスを導入し、分類と回帰の両方で一般的なキャリブレーションの形式を統一・一般化する。
これらの指標は、異なるサンプル推定を許容しており、キャリブレーションの目的を経験的リスク最小化に組み込むのが容易である。
決定タスクにキャリブレーションメトリクスを調整し、正確な損失推定を行ない、後悔しない決定を行うための直感的なメカニズムを提供する。
論文 参考訳(メタデータ) (2023-10-31T06:19:40Z) - Sharp Calibrated Gaussian Processes [58.94710279601622]
キャリブレーションされたモデルを設計するための最先端のアプローチは、ガウス過程の後方分散を膨らませることに依存している。
本稿では,バニラガウス過程の後方分散にインスパイアされた計算を用いて,予測量子化を生成するキャリブレーション手法を提案する。
我々のアプローチは合理的な仮定の下で校正されたモデルが得られることを示す。
論文 参考訳(メタデータ) (2023-02-23T12:17:36Z) - On Calibrating Semantic Segmentation Models: Analyses and An Algorithm [51.85289816613351]
セマンティックセグメンテーションキャリブレーションの問題について検討する。
モデルキャパシティ、作物サイズ、マルチスケールテスト、予測精度はキャリブレーションに影響を及ぼす。
我々は、単純で統一的で効果的なアプローチ、すなわち選択的スケーリングを提案する。
論文 参考訳(メタデータ) (2022-12-22T22:05:16Z) - Modular Conformal Calibration [80.33410096908872]
回帰における再校正のためのアルゴリズムを多種多様なクラスで導入する。
このフレームワークは、任意の回帰モデルをキャリブレーションされた確率モデルに変換することを可能にする。
我々は17の回帰データセットに対するMCCの実証的研究を行った。
論文 参考訳(メタデータ) (2022-06-23T03:25:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。