論文の概要: Optimal Aggregation of LLM and PRM Signals for Efficient Test-Time Scaling
- arxiv url: http://arxiv.org/abs/2510.13918v1
- Date: Wed, 15 Oct 2025 09:08:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.54203
- Title: Optimal Aggregation of LLM and PRM Signals for Efficient Test-Time Scaling
- Title(参考訳): 効率的なテスト時間スケーリングのためのLCM信号とPRM信号の最適集約
- Authors: Peng Kuang, Yanli Wang, Xiaoyu Han, Yaowenqi Liu, Kaidi Xu, Haohan Wang,
- Abstract要約: プロセス報酬モデル(PRM)は、テストタイムスケーリング(TTS)の基礎である。
PRMは、大きな言語モデル(LLM)から最適な応答を検証し、選択するために設計されている。
- 参考スコア(独自算出の注目度): 34.20750590384272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Process reward models (PRMs) are a cornerstone of test-time scaling (TTS), designed to verify and select the best responses from large language models (LLMs). However, this promise is challenged by recent benchmarks where simple majority voting, which ignores PRM signals, occasionally outperforms standard PRM-based selection. This raises a critical question: How can we effectively utilize verification signals from PRMs for TTS? To address this, we start by developing a theoretical framework for optimally combining signals from both the LLM and the PRM. Our framework reveals that the optimal strategy is a weighted aggregation of responses, a strategy whose effectiveness hinges on estimating weights that capture the complex interplay between the models. Based on our theoretical results, we empirically show that these optimal weighting functions differ significantly across LLM-PRM pairs and, notably, often assign substantial negative weights. Motivated by these insights, we propose efficient pre-computation methods to calibrate these weighting functions. Extensive experiments across 5 LLMs and 7 PRMs demonstrate that our calibration method significantly boosts the TTS efficiency, surpassing the performance of vanilla weighted majority voting while using only $21.3\%$ of the computation. Ultimately, our work demonstrates that investing in a more intelligent aggregation strategy can be a more convincing path to performance gains than simply scaling test-time computation.
- Abstract(参考訳): プロセス報酬モデル(Process reward model, PRM)は、大規模言語モデル(LLM)から最適な応答を検証および選択するために設計されたテスト時間スケーリング(TTS)の基盤である。
しかし、この約束は、PRM信号を無視した単純な多数決投票が、時として標準のPRMベースの選択よりも優れているという最近のベンチマークによって挑戦されている。
PRMからTSの検証信号を効果的に活用するにはどうすればいいのか?
そこで本研究では, LLM と PRM の双方からの信号を最適に結合する理論フレームワークの開発から始める。
モデル間の複雑な相互作用を捉えた重みを推定する手法として, 最適戦略は応答の重み付けであり, 応答の重み付けであることがわかった。
理論的結果から,これらの最適重み付け関数はLLM-PRM対間で大きく異なっており,特に負の重み付けが顕著であることを示す。
これらの知見により、重み付け関数を校正する効率的な事前計算法を提案する。
5 LLM と 7 PRM の広範な実験により,このキャリブレーション法はTTS の効率を著しく向上させ,バニラ重み付き多数決の性能を上回り,計算の21.3 % しか利用しないことを示した。
結局のところ、我々の研究は、よりインテリジェントな集約戦略への投資が、単にテスト時間計算をスケールすることよりも、パフォーマンス向上へのより説得力のある道であることを実証しています。
関連論文リスト
- APLOT: Robust Reward Modeling via Adaptive Preference Learning with Optimal Transport [37.21695864040979]
報酬モデル(RM)は、強化学習(Reinforcement Learning)を通じて、大規模言語モデル(LLM)と人間の嗜好の整合において重要な役割を果たす。
本稿では,適応的マージン機構によりBT系RMを効果的に強化する手法を提案する。
論文 参考訳(メタデータ) (2025-10-13T03:13:28Z) - Your Reward Function for RL is Your Best PRM for Search: Unifying RL and Search-Based TTS [62.22644307952087]
本稿では、RLベースと検索ベースTTSの最初の自然統合であるAIRL-Sを紹介する。
逆逆強化学習(AIRL)とグループ相対政策最適化(GRPO)を組み合わせることで、正しい推論トレースから高密度な動的PRMを直接学習する。
提案手法は,GPT-4oと一致して,ベースモデル上での平均9%の性能向上を図っている。
論文 参考訳(メタデータ) (2025-08-19T23:41:15Z) - Good Learners Think Their Thinking: Generative PRM Makes Large Reasoning Model More Efficient Math Learner [31.033131727230277]
大規模推論モデル(LRM)は、Reinforcement Learning (RL) で最適化された複雑な数学問題の解法において、最近約束されている。
本稿では,RLに基づく学習における大きなボトルネックに対処するため,思考レベルで機能する固有信号駆動型生成過程評価機構を提案する。
1.5B と 7B のパラメータ LRM を用いた実験により,結果のみの報酬ベースラインよりもトレーニングサンプルが有意に少ない問題解精度が得られた。
論文 参考訳(メタデータ) (2025-07-31T07:54:58Z) - Reward Model Generalization for Compute-Aware Test-Time Reasoning [21.05692631562457]
外部テスト時推論は、生成と選択を分離することで、大きな言語モデル(LLM)を強化する。
この設定における中心的な課題は、テスト時間計算の最適性(TCO)、すなわち、固定された推論予算の下で答えの正確さを最大化する方法である。
PRMの一般化誤差が計算効率と推論性能に与える影響を解析する。
そこで本研究では,探索動作を動的に制御するアクター・クリティカルなフレームワークであるCompute-Aware Tree Search (CATS)を提案する。
論文 参考訳(メタデータ) (2025-05-23T16:12:12Z) - Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute [54.22256089592864]
本稿では,テスト時間計算のスケールアップによるLCM性能向上のための,シンプルで効果的で費用効率のよい手法を提案する。
当社の戦略は,複数のモデルを組み込んで,補完的な強みを活用するという,新たなツイストによって,繰り返しサンプリングされる投票フレームワークを基盤としています。
論文 参考訳(メタデータ) (2025-04-01T13:13:43Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。