論文の概要: On the Power of (Approximate) Reward Models for Inference-Time Scaling
- arxiv url: http://arxiv.org/abs/2602.01381v1
- Date: Sun, 01 Feb 2026 18:28:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.758672
- Title: On the Power of (Approximate) Reward Models for Inference-Time Scaling
- Title(参考訳): 推論時間スケーリングのための(近似)リワードモデルのパワーについて
- Authors: Youheng Zhu, Yiping Lu,
- Abstract要約: 推論時間スケーリングは、大規模言語モデルの推論能力を改善するための強力なパラダイムとして登場した。
すべてのデプロイされたシステムは、近似的な報酬モデルに依存しており、根本的な疑問を提起している。
近似報酬モデルのベルマン誤差を,SMCに基づく推定時間スケーリングの有効性を規定する鍵となる量として同定する。
- 参考スコア(独自算出の注目度): 3.540245474029962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inference-time scaling has recently emerged as a powerful paradigm for improving the reasoning capability of large language models. Among various approaches, Sequential Monte Carlo (SMC) has become a particularly important framework, enabling iterative generation, evaluation, rejection, and resampling of intermediate reasoning trajectories. A central component in this process is the reward model, which evaluates partial solutions and guides the allocation of computation during inference. However, in practice, true reward models are never available. All deployed systems rely on approximate reward models, raising a fundamental question: Why and when do approximate reward models suffice for effective inference-time scaling? In this work, we provide a theoretical answer. We identify the Bellman error of the approximate reward model as the key quantity governing the effectiveness of SMC-based inference-time scaling. For a reasoning process of length $T$, we show that if the Bellman error of the approximate reward model is bounded by $O(1/T)$, then combining this reward model with SMC reduces the computational complexity of reasoning from exponential in $T$ to polynomial in $T$. This yields an exponential improvement in inference efficiency despite using only approximate rewards.
- Abstract(参考訳): 推論時間スケーリングは、最近、大規模言語モデルの推論能力を改善するための強力なパラダイムとして登場した。
様々なアプローチの中で、シークエンシャルモンテカルロ(SMC)は特に重要なフレームワークとなり、中間推論軌道の反復生成、評価、拒絶、再サンプリングを可能にしている。
このプロセスの中心的なコンポーネントは報酬モデルであり、部分解を評価し、推論中の計算の割り当てを導く。
しかし実際には、真の報酬モデルは利用できない。
すべてのデプロイされたシステムは、近似的な報酬モデルに依存しており、根本的な疑問を提起している。
この研究において、我々は理論的な答えを提供する。
近似報酬モデルのベルマン誤差を,SMCに基づく推定時間スケーリングの有効性を規定する鍵となる量として同定する。
長さ$T$の推論過程において、近似報酬モデルのベルマン誤差が$O(1/T)$で有界であれば、この報酬モデルとSMCを組み合わせることで、$T$の指数関数から$T$の多項式への推論の計算複雑性が減少することを示す。
これにより、近似報酬のみを使用するにもかかわらず、推論効率が指数関数的に向上する。
関連論文リスト
- Demystifying LLM-as-a-Judge: Analytically Tractable Model for Inference-Time Scaling [34.69440744042684]
推論時間スケーリングを解析的に抽出可能なモデルを導入する。
我々は,これらの事実を大言語モデル推論で実験的に検証し,さらに大きな言語モデルを判断する。
論文 参考訳(メタデータ) (2025-12-22T22:13:06Z) - Noise Hypernetworks: Amortizing Test-Time Compute in Diffusion Models [57.49136894315871]
テストタイムスケーリングの新しいパラダイムは、推論モデルと生成視覚モデルにおいて驚くべきブレークスルーをもたらした。
本稿では,テスト時間スケーリングの知識をモデルに組み込むことの課題に対する1つの解決策を提案する。
拡散モデルにおいて、初期入力ノイズを変調するノイズハイパーネットワークにより、報酬誘導試験時間雑音の最適化を行う。
論文 参考訳(メタデータ) (2025-08-13T17:33:37Z) - Accelerating LLM Reasoning via Early Rejection with Partial Reward Modeling [12.835376812101323]
PRMも部分的リワードモデルであるという仮説を導入する。
これにより、中間トークンレベル信号に基づく原理的な早期拒絶が可能となる。
算数推論のベンチマークでは、最終的な性能を劣化させることなく、最大1.4$times$-9$times$の推論FLOPを削減できる。
論文 参考訳(メタデータ) (2025-08-04T00:58:56Z) - Intention-Conditioned Flow Occupancy Models [80.42634994902858]
大規模な事前学習は、今日の機械学習研究のやり方を根本的に変えた。
同じフレームワークを強化学習に適用することは、RLの中核的な課題に対処するための魅力的な方法を提供するので、魅力的です。
生成AIの最近の進歩は、高度に複雑な分布をモデリングするための新しいツールを提供している。
論文 参考訳(メタデータ) (2025-06-10T15:27:46Z) - RED: Unleashing Token-Level Rewards from Holistic Feedback via Reward Redistribution [50.171320156632866]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための有望なアプローチを提供する。
現在の報酬モデルはシークエンス・ツー・ワンモデルとして動作し、単一、スパース、遅延報酬を全出力シーケンスに割り当てる。
よりきめ細かなトークンレベルの指導手法をRLトレーニングに提案する。
論文 参考訳(メタデータ) (2024-11-13T02:45:21Z) - Reinforcement Learning from Human Feedback without Reward Inference: Model-Free Algorithm and Instance-Dependent Analysis [16.288866201806382]
モデルフリーなRLHFベストポリシー識別アルゴリズムである$mathsfBSAD$を、明示的な報酬モデル推論なしで開発する。
アルゴリズムは、人選好情報から直接、その最適方針を後方方向に識別する。
論文 参考訳(メタデータ) (2024-06-11T17:01:41Z) - Scalable Ensembling For Mitigating Reward Overoptimisation [24.58937616758007]
ヒューマンフィードバックからの強化学習は、強力な命令追従モデルのための言語モデリングにおける大幅な進歩を可能にした。
ポリシーが学習したプロキシ"報酬モデルに過度に適合する傾向にあるため、これらのモデルの整合性は依然として急進的な課題である。
論文 参考訳(メタデータ) (2024-06-03T05:46:53Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。