論文の概要: Improving Value-based Process Verifier via Low-Cost Variance Reduction
- arxiv url: http://arxiv.org/abs/2508.10539v1
- Date: Thu, 14 Aug 2025 11:22:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.28475
- Title: Improving Value-based Process Verifier via Low-Cost Variance Reduction
- Title(参考訳): 低コスト可変化による価値ベースプロセス検証の改善
- Authors: Zetian Sun, Dongfang Li, Baotian Hu, Min Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、幅広いタスクにおいて顕著な成功を収めた。
しかし、特に数学のような複雑な分野において、それらの推論能力は依然として重要な課題である。
正解につながる部分的推論連鎖の確率を推定する値ベースのプロセス検証器は、推論を改善するための有望なアプローチである。
- 参考スコア(独自算出の注目度): 24.609940184050043
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) have achieved remarkable success in a wide range of tasks. However, their reasoning capabilities, particularly in complex domains like mathematics, remain a significant challenge. Value-based process verifiers, which estimate the probability of a partial reasoning chain leading to a correct solution, are a promising approach for improving reasoning. Nevertheless, their effectiveness is often hindered by estimation error in their training annotations, a consequence of the limited number of Monte Carlo (MC) samples feasible due to the high cost of LLM inference. In this paper, we identify that the estimation error primarily arises from high variance rather than bias, and the MC estimator is a Minimum Variance Unbiased Estimator (MVUE). To address the problem, we propose the \textsc{Com}pound \textsc{M}onte \textsc{C}arlo \textsc{S}ampling (ComMCS) method, which constructs an unbiased estimator by linearly combining the MC estimators from the current and subsequent steps. Theoretically, we show that our method leads to a predictable reduction in variance, while maintaining an unbiased estimation without additional LLM inference cost. We also perform empirical experiments on the MATH-500 and GSM8K benchmarks to demonstrate the effectiveness of our method. Notably, ComMCS outperforms regression-based optimization method by 2.8 points, the non-variance-reduced baseline by 2.2 points on MATH-500 on Best-of-32 sampling experiment.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広いタスクにおいて顕著な成功を収めた。
しかし、特に数学のような複雑な分野において、それらの推論能力は依然として重要な課題である。
正解につながる部分的推論連鎖の確率を推定する値ベースのプロセス検証器は、推論を改善するための有望なアプローチである。
それにもかかわらず、それらの効果は、LCM推論のコストが高いため、限られたモンテカルロ(MC)サンプル数の結果として、トレーニングアノテーションにおける推定誤差によってしばしば妨げられる。
本稿では,推定誤差が主にバイアスよりも高い分散から生じることを確認し,MC推定器はMVUE(Minimum Variance Unbiased Estimator)である。
この問題に対処するために, MC推定器を現在のステップとその後のステップから線形に組み合わせて非バイアス推定器を構築するComMCS法を提案する。
理論的には,LLM推定コストを増大させることなく,不偏推定を維持しながら,予測可能な分散の低減につながることを示す。
また,MATH-500およびGSM8Kベンチマークを用いて実験を行い,本手法の有効性を実証した。
特に、ComMCSは、回帰に基づく最適化法を2.8ポイント、非分散還元ベースラインを2.2ポイント、MATH-500においてBest-of-32サンプリング実験で上回っている。
関連論文リスト
- Double Machine Learning for Conditional Moment Restrictions: IV Regression, Proximal Causal Learning and Beyond [16.842233444365764]
条件モーメント制限(CMR)は統計学、因果推論、計量学において重要な問題である。
ほとんどのCMR推定器は2段階の手法を用いており、第1段階の推定は第2段階に直接差し込んで関心の関数を推定する。
DML-CMRは、2段階のCMR推定器であり、高速収束率を保証する不偏推定を提供する。
論文 参考訳(メタデータ) (2025-06-17T20:00:34Z) - Know What You Don't Know: Uncertainty Calibration of Process Reward Models [8.958124143194512]
最先端のPRMでさえ、キャリブレーションが不十分であり、しばしば成功確率を過大評価することができる。
我々は、PRM出力が真の成功確率によく適合するように、量子レグレッションによって行われるキャリブレーション手法を提案する。
論文 参考訳(メタデータ) (2025-06-11T02:39:26Z) - Model-free Methods for Event History Analysis and Efficient Adjustment (PhD Thesis) [55.2480439325792]
この論文は、モデルフリーの観点から統一された統計学への独立した貢献のシリーズである。
第1章では、機械学習から予測技術を活用する柔軟なメソッドを定式化するために、モデルフリーの視点をどのように利用できるか、詳しく説明している。
第2章では、あるプロセスの進化が他のプロセスに直接影響されるかどうかを記述した地域独立の概念を研究している。
論文 参考訳(メタデータ) (2025-02-11T19:24:09Z) - The Lessons of Developing Process Reward Models in Mathematical Reasoning [62.165534879284735]
Process Reward Models (PRM) は、推論プロセスにおける中間エラーを特定し、緩和することを目的としている。
我々は,モンテカルロ (MC) 推定とLarge Language Models (LLM) を効果的に統合するコンセンサスフィルタリング機構を開発した。
私たちは、既存のオープンソース代替品よりも優れた、最先端のPRMを新たにリリースしています。
論文 参考訳(メタデータ) (2025-01-13T13:10:16Z) - A Tale of Sampling and Estimation in Discounted Reinforcement Learning [50.43256303670011]
割引平均推定問題に対して最小値の最小値を求める。
マルコフ過程の割引されたカーネルから直接サンプリングすることで平均を推定すると、説得力のある統計的性質が得られることを示す。
論文 参考訳(メタデータ) (2023-04-11T09:13:17Z) - Multi-Fidelity Covariance Estimation in the Log-Euclidean Geometry [0.0]
対称正定値多様体の対数ユークリッド幾何学を利用する共分散行列の多値推定器を導入する。
固定予算が与えられた推定器の平均二乗誤差を最小化する最適サンプル割り当て方式を開発した。
物理アプリケーションからのデータによるアプローチの評価は、ベンチマークと比較すると、より正確なメトリック学習と1桁以上のスピードアップを示している。
論文 参考訳(メタデータ) (2023-01-31T16:33:46Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Efficient Debiased Evidence Estimation by Multilevel Monte Carlo
Sampling [0.0]
ベイズ推論に基づくマルチレベルモンテカルロ法(MLMC)の最適化手法を提案する。
計算結果から,従来の推定値と比較すると,かなりの計算量の削減が確認できた。
論文 参考訳(メタデータ) (2020-01-14T09:14:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。