論文の概要: Majority of the Bests: Improving Best-of-N via Bootstrapping
- arxiv url: http://arxiv.org/abs/2511.18630v1
- Date: Sun, 23 Nov 2025 22:05:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.938748
- Title: Majority of the Bests: Improving Best-of-N via Bootstrapping
- Title(参考訳): ベストの多数:ブートストラップによるベスト・オブ・Nの改善
- Authors: Amin Rakhsha, Kanika Madan, Tianyu Zhang, Amir-massoud Farahmand, Amir Khasahmadi,
- Abstract要約: Majority-of-the-Bests (MoB) はブートストレッピングによってBoNの出力分布を推定し、そのモードを選択する新しい選択メカニズムである。
MoBは、BoNと自己整合性の単純な代替として機能し、より広範に、よりニュアンスな選択機構の研究を動機付けている。
- 参考スコア(独自算出の注目度): 14.223905735887143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sampling multiple outputs from a Large Language Model (LLM) and selecting the most frequent (Self-consistency) or highest-scoring (Best-of-N) candidate is a popular approach to achieve higher accuracy in tasks with discrete final answers. Best-of-N (BoN) selects the output with the highest reward, and with perfect rewards, it often achieves near-perfect accuracy. With imperfect rewards from reward models, however, BoN fails to reliably find the correct answer and its performance degrades drastically. We consider the distribution of BoN's outputs and highlight that, although the correct answer does not usually have a probability close to one under imperfect rewards, it is often the most likely outcome. This suggests that the mode of this distribution can be more reliably correct than a sample from it. Based on this idea, we propose Majority-of-the-Bests (MoB), a novel selection mechanism that estimates the output distribution of BoN via bootstrapping and selects its mode. Experimental results across five benchmarks, three different base LLMs, and two reward models demonstrate consistent improvements over BoN in 25 out of 30 setups. We also provide theoretical results for the consistency of the bootstrapping. MoB serves as a simple, yet strong alternative to BoN and self-consistency, and more broadly, motivates further research in more nuanced selection mechanisms.
- Abstract(参考訳): 大規模言語モデル(LLM)から複数の出力をサンプリングし、最も頻繁な(自己整合性)か最も高い(ベストオブN)候補を選択することは、離散的な最終回答を持つタスクにおいて高い精度を達成するための一般的なアプローチである。
Best-of-N (BoN) は最も高い報酬で出力を選択し、完璧な報酬で、ほぼ完璧な精度を達成する。
しかし、報酬モデルからの不完全な報酬により、BoNは正しい答えを確実に見つけることができず、その性能は劇的に低下する。
我々は、BoNの出力の分布を考察し、正しい答えは通常不完全な報酬の下では確率が低いが、最も可能性が高い結果であると強調する。
これは、この分布のモードがサンプルよりも確実に正しいことを示唆している。
このアイデアに基づいて,ブートストラップによるBoNの出力分布を推定し,そのモードを選択する新しい選択機構であるMajority-of-the-Bests(MoB)を提案する。
5つのベンチマーク、3つの異なるベースLLM、2つの報酬モデルによる実験結果から、30のセットアップ中25のBoNに対して一貫した改善が示された。
また,ブートストラップの一貫性に関する理論的結果も提供する。
MoBは、BoNと自己整合性の単純な代替として機能し、より広範に、よりニュアンスな選択機構の研究を動機付けている。
関連論文リスト
- Best-of-Majority: Minimax-Optimal Strategy for Pass@$k$ Inference Scaling [54.50689440956967]
LLM推論は、しばしばプロンプトの一連の候補を生成し、多数決やBest-of-N (BoN)のような戦略を介して1つを選択する。
我々は,最上位の$k$報酬を選択する前に,上位の$N$サンプルにおいて,高い周波数の応答を候補に限定するピボットステップを備えたBest-of-Majority (BoM)を提案する。
多数決とBoNとは異なり、BoMは重要な利点がある:多数決とBoNとは異なり、そのパフォーマンスはN$を上昇しても低下しない。
論文 参考訳(メタデータ) (2025-10-03T17:35:45Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [75.1351701045874]
Best-of-N selectionは、Large Language Models(LLMs)の推論性能を改善するための重要なテクニックである。
本稿では, LLM出力の固有確率分布を利用して, 外部報酬モデルを必要としない応答品質を推定する, 新規で効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - Evaluation of Best-of-N Sampling Strategies for Language Model Alignment [6.4706370001155955]
報奨モデルを用いたBest-of-N(BoN)サンプリングは、復号時の人間の嗜好とLLM(Large Language Models)を整合させる効果的な戦略であることが示されている。
従来の研究は、目的に対して正規化したBoNサンプリングである正規化BoNサンプリング(RBoN)を提案し、BoNサンプリングよりも優れていることを示した。
本稿では、最悪のRBoNプロキシ報酬に対する理論的に保証されたアプローチであるRBoNサンプリング(SRBoN)と呼ばれるRBoNフレームワークの拡張を提案する。
論文 参考訳(メタデータ) (2025-02-18T09:18:02Z) - Variational Best-of-N Alignment [57.617866305771756]
Best-of-N(Best-of-N)は、言語モデルを人間の好みに合わせるアルゴリズムである。
推論時にBoNが行うことを模倣するために、言語モデルを微調整することを提案する。
我々のアプローチは平均場変分推論に類似しており、従ってそれを変分BoN(vBoN)と呼ぶ。
論文 参考訳(メタデータ) (2024-07-08T15:59:44Z) - Regularized Best-of-N Sampling with Minimum Bayes Risk Objective for Language Model Alignment [7.349727826230864]
報奨モデルを用いたBest-of-N(BoN)サンプリングは、復号時の人間の嗜好に合わせてLLM(Large Language Models)を調整するための効果的な戦略であることが示されている。
報酬モデルは真の目的に対する不完全なプロキシであるため、その価値を過度に最適化することは、真の目的に対するパフォーマンスを損なう可能性がある。
本稿では,最小ベイズリスク(MBR)目標を近接正規化項として組み込むことで,推論時の報酬ハッキングを緩和することを目的としたBoNの変種を提案する。
論文 参考訳(メタデータ) (2024-04-01T11:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。