論文の概要: On the Power of (Approximate) Reward Models for Inference-Time Scaling
- arxiv url: http://arxiv.org/abs/2602.01381v1
- Date: Sun, 01 Feb 2026 18:28:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.758672
- Title: On the Power of (Approximate) Reward Models for Inference-Time Scaling
- Title(参考訳): 推論時間スケーリングのための(近似)リワードモデルのパワーについて
- Authors: Youheng Zhu, Yiping Lu,
- Abstract要約: 推論時間スケーリングは、大規模言語モデルの推論能力を改善するための強力なパラダイムとして登場した。
すべてのデプロイされたシステムは、近似的な報酬モデルに依存しており、根本的な疑問を提起している。
近似報酬モデルのベルマン誤差を,SMCに基づく推定時間スケーリングの有効性を規定する鍵となる量として同定する。
- 参考スコア(独自算出の注目度): 3.540245474029962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inference-time scaling has recently emerged as a powerful paradigm for improving the reasoning capability of large language models. Among various approaches, Sequential Monte Carlo (SMC) has become a particularly important framework, enabling iterative generation, evaluation, rejection, and resampling of intermediate reasoning trajectories. A central component in this process is the reward model, which evaluates partial solutions and guides the allocation of computation during inference. However, in practice, true reward models are never available. All deployed systems rely on approximate reward models, raising a fundamental question: Why and when do approximate reward models suffice for effective inference-time scaling? In this work, we provide a theoretical answer. We identify the Bellman error of the approximate reward model as the key quantity governing the effectiveness of SMC-based inference-time scaling. For a reasoning process of length $T$, we show that if the Bellman error of the approximate reward model is bounded by $O(1/T)$, then combining this reward model with SMC reduces the computational complexity of reasoning from exponential in $T$ to polynomial in $T$. This yields an exponential improvement in inference efficiency despite using only approximate rewards.
- Abstract(参考訳): 推論時間スケーリングは、最近、大規模言語モデルの推論能力を改善するための強力なパラダイムとして登場した。
様々なアプローチの中で、シークエンシャルモンテカルロ(SMC)は特に重要なフレームワークとなり、中間推論軌道の反復生成、評価、拒絶、再サンプリングを可能にしている。
このプロセスの中心的なコンポーネントは報酬モデルであり、部分解を評価し、推論中の計算の割り当てを導く。
しかし実際には、真の報酬モデルは利用できない。
すべてのデプロイされたシステムは、近似的な報酬モデルに依存しており、根本的な疑問を提起している。
この研究において、我々は理論的な答えを提供する。
近似報酬モデルのベルマン誤差を,SMCに基づく推定時間スケーリングの有効性を規定する鍵となる量として同定する。
長さ$T$の推論過程において、近似報酬モデルのベルマン誤差が$O(1/T)$で有界であれば、この報酬モデルとSMCを組み合わせることで、$T$の指数関数から$T$の多項式への推論の計算複雑性が減少することを示す。
これにより、近似報酬のみを使用するにもかかわらず、推論効率が指数関数的に向上する。
関連論文リスト
- Nonparametric Bayesian Optimization for General Rewards [4.696963700743491]
目的関数のリプシッツ連続性しか必要とせず、一般報酬設定において不一致保証を実現する最初のBOアルゴリズムを提案する。
本研究では,一般報酬に対する新たなTS後悔分析フレームワークを開発し,サロゲートモデルと真の報酬分布の総変動距離に関する後悔を関連づける。
実証的な結果は、特に非定常的、重尾的、または他の条件の悪い報酬の設定において、最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2026-02-07T07:01:33Z) - Demystifying LLM-as-a-Judge: Analytically Tractable Model for Inference-Time Scaling [34.69440744042684]
推論時間スケーリングを解析的に抽出可能なモデルを導入する。
我々は,これらの事実を大言語モデル推論で実験的に検証し,さらに大きな言語モデルを判断する。
論文 参考訳(メタデータ) (2025-12-22T22:13:06Z) - Noise Hypernetworks: Amortizing Test-Time Compute in Diffusion Models [57.49136894315871]
テストタイムスケーリングの新しいパラダイムは、推論モデルと生成視覚モデルにおいて驚くべきブレークスルーをもたらした。
本稿では,テスト時間スケーリングの知識をモデルに組み込むことの課題に対する1つの解決策を提案する。
拡散モデルにおいて、初期入力ノイズを変調するノイズハイパーネットワークにより、報酬誘導試験時間雑音の最適化を行う。
論文 参考訳(メタデータ) (2025-08-13T17:33:37Z) - Accelerating LLM Reasoning via Early Rejection with Partial Reward Modeling [12.835376812101323]
PRMも部分的リワードモデルであるという仮説を導入する。
これにより、中間トークンレベル信号に基づく原理的な早期拒絶が可能となる。
算数推論のベンチマークでは、最終的な性能を劣化させることなく、最大1.4$times$-9$times$の推論FLOPを削減できる。
論文 参考訳(メタデータ) (2025-08-04T00:58:56Z) - Intention-Conditioned Flow Occupancy Models [80.42634994902858]
大規模な事前学習は、今日の機械学習研究のやり方を根本的に変えた。
同じフレームワークを強化学習に適用することは、RLの中核的な課題に対処するための魅力的な方法を提供するので、魅力的です。
生成AIの最近の進歩は、高度に複雑な分布をモデリングするための新しいツールを提供している。
論文 参考訳(メタデータ) (2025-06-10T15:27:46Z) - RED: Unleashing Token-Level Rewards from Holistic Feedback via Reward Redistribution [50.171320156632866]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための有望なアプローチを提供する。
現在の報酬モデルはシークエンス・ツー・ワンモデルとして動作し、単一、スパース、遅延報酬を全出力シーケンスに割り当てる。
よりきめ細かなトークンレベルの指導手法をRLトレーニングに提案する。
論文 参考訳(メタデータ) (2024-11-13T02:45:21Z) - Reinforcement Learning from Human Feedback without Reward Inference: Model-Free Algorithm and Instance-Dependent Analysis [16.288866201806382]
モデルフリーなRLHFベストポリシー識別アルゴリズムである$mathsfBSAD$を、明示的な報酬モデル推論なしで開発する。
アルゴリズムは、人選好情報から直接、その最適方針を後方方向に識別する。
論文 参考訳(メタデータ) (2024-06-11T17:01:41Z) - Scalable Ensembling For Mitigating Reward Overoptimisation [24.58937616758007]
ヒューマンフィードバックからの強化学習は、強力な命令追従モデルのための言語モデリングにおける大幅な進歩を可能にした。
ポリシーが学習したプロキシ"報酬モデルに過度に適合する傾向にあるため、これらのモデルの整合性は依然として急進的な課題である。
論文 参考訳(メタデータ) (2024-06-03T05:46:53Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。