論文の概要: Revisiting the (Sub)Optimality of Best-of-N for Inference-Time Alignment
- arxiv url: http://arxiv.org/abs/2603.05739v1
- Date: Thu, 05 Mar 2026 22:54:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.685513
- Title: Revisiting the (Sub)Optimality of Best-of-N for Inference-Time Alignment
- Title(参考訳): 推測時間アライメントにおけるBest-of-Nの最適性の再検討
- Authors: Ved Sriraman, Adam Block,
- Abstract要約: Best-of-N (BoN) サンプリングは、言語モデルにおいて広く使われている推論時間アライメント手法である。
最近の理論的研究は、これは統計的に準最適であり、報酬ハッキングに弱いことを示唆している。
適切な調整を施したBoNは,高い勝利率を達成するのに最適であり,統計的に最適であることを示す。
- 参考スコア(独自算出の注目度): 10.749836992585363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Best-of-N (BoN) sampling is a widely used inference-time alignment method for language models, whereby N candidate responses are sampled from a reference model and the one with the highest predicted reward according to a learned reward model is selected. Despite its widespread practical use, recent theoretical work has suggested that it is statistically suboptimal and vulnerable to reward hacking, the process by which models exploit weaknesses in the learned reward model to achieve high estimated reward without genuinely improving performance. We revisit this question under assumptions that more closely reflect practice than that of prior work. In particular, in contradistinction to earlier analyses that focused on expected true reward, which may not be meaningful in many practical settings, we investigate how inference-time alignment affects the win-rate, a pairwise comparison-based metric more closely aligned with how reward models are trained and evaluated in practice. We demonstrate that, under minimal conditions on the quality of the reference model and learned reward model, properly tuned BoN is both computationally and statistically optimal in achieving high win-rate, partially explaining its widespread practical success. Because BoN remains susceptible to reward-hacking in this setting, we propose a simple and practical variant that provably eliminates reward-hacking while maintaining optimal statistical performance. Finally, we show that prior approaches are provably suboptimal when considering win-rate, highlighting the importance of choosing appropriate objectives when analyzing inference-time alignment methods.
- Abstract(参考訳): ベストオブNサンプリング(Best-of-N:BoN:Best-of-N)は、言語モデルにおいて広く使われている推論時アライメント手法であり、参照モデルからN候補応答をサンプリングし、学習報酬モデルに基づいて最も高い予測報酬を持つものを選択する。
広く実用化されているにもかかわらず、近年の理論的研究は、モデルが学習報酬モデルの弱点を利用して真に性能を向上させることなく高い評価報酬を達成するプロセスが統計的に最適であり、報酬のハッキングに弱いことを示唆している。
我々は,従来の作業よりも実践を深く反映した仮定の下で,この問題を再考する。
特に、期待される真報酬に焦点をあてた以前の分析とは対照的に、予測時アライメントが勝利率にどのように影響するかを考察する。
基準モデルと学習報酬モデルの品質に関する最小条件下では,BoNを適切に調整することは高い勝利率を達成するのに最適であり,その広範な実用的成功を部分的に説明できることを示した。
この設定では、BoNは報酬ハッキングの影響を受けやすいため、最適統計性能を維持しながら報奨ハッキングを確実に排除する単純かつ実用的な変種を提案する。
最後に, 予測時間アライメント法を解析する際に, 適切な対象を選択することの重要性を強調し, 勝率を考慮した場合, 先行手法が最適に最適であることを示す。
関連論文リスト
- On the Limits of Test-Time Compute: Sequential Reward Filtering for Better Inference [71.09125259964684]
テスト時計算(TTC)は、大規模言語モデル(LLM)の拡張のパラダイムとして、ますます顕著になっている。
本稿では,高次世代のみを文脈に選択的に組み込む単純な手順である報酬フィルタシーケンシャル推論について検討する。
理論的には、報酬フィルタによる逐次推論は標準TTCパラダイムよりも厳密な保証が得られることを示す。
論文 参考訳(メタデータ) (2025-12-04T08:21:33Z) - Probing Preference Representations: A Multi-Dimensional Evaluation and Analysis Method for Reward Models [63.00458229517523]
本研究は、嗜好表現を探索することで、報酬モデルの評価課題に対処する。
多次元リワードモデルベンチマーク (MRMBench) を構築する。
本稿では,報酬予測時に使用する次元を同定し,その解釈可能性を高める解析手法,推論時探索を提案する。
論文 参考訳(メタデータ) (2025-11-16T05:29:29Z) - Reward-Shifted Speculative Sampling Is An Efficient Test-Time Weak-to-Strong Aligner [24.152878302325508]
提案手法では,対象モデルが変わらず,ヒトの嗜好に沿うような,報酬シフト型投機的サンプリング(SSS)アルゴリズムを導入する。
本アルゴリズムは, 試験時間低強度アライメント実験において, 推定コストを著しく低減し, 優れた金報酬スコアを得る。
論文 参考訳(メタデータ) (2025-08-20T20:10:56Z) - RewardBench 2: Advancing Reward Model Evaluation [71.65938693914153]
リワードモデルは、好みのデータからニュアンスされた信号をキャプチャするために、言語モデルの訓練後を通して使用される。
コミュニティは報酬モデルを評価するためのベストプラクティスを確立し始めている。
本稿では,新しいマルチスキル報酬モデルベンチマークであるRewardBench 2を紹介する。
論文 参考訳(メタデータ) (2025-06-02T17:54:04Z) - Is Best-of-N the Best of Them? Coverage, Scaling, and Optimality in Inference-Time Alignment [54.787826863212146]
推論時間計算は、言語モデルのパフォーマンスをスケールするための強力な軸を提供する。
我々は, (i) 応答品質, (ii) 計算量の観点から, 推論時アライメントアルゴリズムの性能を解析する。
我々は$textttInferenceTimePessimism$を紹介した。これは推論時間計算の故意使用を通じて報酬ハッキングを緩和する新しいアルゴリズムである。
論文 参考訳(メタデータ) (2025-03-27T18:00:08Z) - What Makes a Reward Model a Good Teacher? An Optimization Perspective [82.73297593767181]
報酬モデルがどの程度正確であるかに関わらず、低報酬分散を誘導した場合、RLHFの目的は平坦な景観に悩まされる。
さらに、ある言語モデルでうまく機能する報酬モデルが、低い報酬分散を誘発し、したがって、別の言語モデルに対して平坦な客観的景観をもたらすことを示す。
論文 参考訳(メタデータ) (2025-03-19T17:54:41Z) - Evaluating Robustness of Reward Models for Mathematical Reasoning [14.97819343313859]
本稿では,報酬モデルの信頼性評価のための新しい設計を提案し,これを検証するためにRewardMATHを構築した。
RewardMATHのスコアは、最適化されたポリシーの結果と強く相関し、効果的に報酬過大評価を推定する。
論文 参考訳(メタデータ) (2024-10-02T16:39:58Z) - Towards Understanding the Influence of Reward Margin on Preference Model Performance [8.891183078634786]
本研究では,人間のアノテータからの詳細なラベルを必要とせず,好みの違いを推定する新しい手法を提案する。
実験の結果,トレーニングプロセスにマージン値を組み込むことで,報酬モデルの有効性が著しく向上することを示す実証的証拠が得られた。
論文 参考訳(メタデータ) (2024-04-07T12:10:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。