論文の概要: Learning Generative Selection for Best-of-N
- arxiv url: http://arxiv.org/abs/2602.02143v1
- Date: Mon, 02 Feb 2026 14:21:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.202194
- Title: Learning Generative Selection for Best-of-N
- Title(参考訳): Best-of-Nのための生成的選択の学習
- Authors: Shubham Toshniwal, Aleksander Ficek, Siddhartha Jain, Wei Du, Vahid Noroozi, Sadegh Mahdavi, Somshubra Majumdar, Igor Gitman,
- Abstract要約: 目的の強化学習によって、小さな推論モデルによって強力なGenSelect能力が得られることを示す。
この結果は,小規模モデルにおける強力な生成的選択を解放するスケーラブルな手法として強化学習を確立した。
- 参考スコア(独自算出の注目度): 52.88943295436412
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling test-time compute via parallel sampling can substantially improve LLM reasoning, but is often limited by Best-of-N selection quality. Generative selection methods, such as GenSelect, address this bottleneck, yet strong selection performance remains largely limited to large models. We show that small reasoning models can acquire strong GenSelect capabilities through targeted reinforcement learning. To this end, we synthesize selection tasks from large-scale math and code instruction datasets by filtering to instances with both correct and incorrect candidate solutions, and train 1.7B-parameter models with DAPO to reward correct selections. Across math (AIME24, AIME25, HMMT25) and code (LiveCodeBench) reasoning benchmarks, our models consistently outperform prompting and majority-voting baselines, often approaching or exceeding much larger models. Moreover, these gains generalize to selecting outputs from stronger models despite training only on outputs from weaker models. Overall, our results establish reinforcement learning as a scalable way to unlock strong generative selection in small models, enabling efficient test-time scaling.
- Abstract(参考訳): 並列サンプリングによるテスト時間計算のスケーリングはLLM推論を大幅に改善するが、Best-of-N選択品質によって制限されることが多い。
GenSelectのような生成的選択手法はこのボトルネックに対処するが、強い選択性能は大きなモデルに限られる。
目的の強化学習によって、小さな推論モデルによって強力なGenSelect能力が得られることを示す。
この目的のために、我々は、正しい候補解と正しい候補解の両方のインスタンスにフィルタすることで、大規模数学とコード命令データセットから選択タスクを合成し、DAPOを用いて1.7Bパラメータモデルを訓練し、正しい選択を報奨する。
数学(AIME24, AIME25, HMMT25)とコード推論ベンチマーク(LiveCodeBench)を通じて、我々のモデルはプロンプトと多数決のベースラインを一貫して上回り、しばしばもっと大きなモデルに近づいたり、超えたりしています。
さらに、これらの利得は、より弱いモデルからの出力のみをトレーニングしながら、より強いモデルからの出力を選択するために一般化される。
全体として、我々は、小規模モデルにおける強力な生成的選択を解放するスケーラブルな方法として強化学習を確立し、効率的なテスト時間スケーリングを可能にした。
関連論文リスト
- Scalable Best-of-N Selection for Large Language Models via Self-Certainty [75.1351701045874]
Best-of-N selectionは、Large Language Models(LLMs)の推論性能を改善するための重要なテクニックである。
本稿では, LLM出力の固有確率分布を利用して, 外部報酬モデルを必要としない応答品質を推定する, 新規で効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - Efficient Response Generation Strategy Selection for Fine-Tuning Large Language Models Through Self-Aligned Perplexity [29.665161650753742]
細調整された大言語モデル(LLM)は、通常、大量の入出力ペアを生成することに依存する。
近年の研究では、これらのトレーニングアウトプットの生成が微調整モデルの性能に大きく影響を与えることが示されている。
本稿では,特定の目標LLMに対する適合性を推定するために,生成したデータの小さなサブセットを評価する,スケーラブルな近似手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T13:14:11Z) - How to Select Pre-Trained Code Models for Reuse? A Learning Perspective [29.83900262273832]
市販の事前訓練コードモデル(PCM)が公開されている。
コードインテリジェンスタスクに広く使用されている100のオープンソースPCMで実験を行い、サイズは425万から30億のパラメータです。
その結果, ブラトフォース微調整を施した2,700時間に対して, 学習ベース選択法は選択時間を100秒に短縮した。
論文 参考訳(メタデータ) (2025-01-07T13:45:24Z) - A Two-Phase Recall-and-Select Framework for Fast Model Selection [13.385915962994806]
本稿では,2相モデル選択フレームワークを提案する。
これは、ベンチマークデータセット上でモデルのトレーニングパフォーマンスを活用することにより、堅牢なモデルを選択する効率を高めることを目的としている。
提案手法は,従来のベースライン法に比べて約3倍の速度でハイパフォーマンスモデルの選択を容易にすることが実証された。
論文 参考訳(メタデータ) (2024-03-28T14:44:44Z) - GistScore: Learning Better Representations for In-Context Example
Selection with Gist Bottlenecks [3.9638110494107095]
In-context Learning(ICL)は、大規模言語モデル(LLM)がプロンプトで条件付きで新しいタスクを実行する機能である。
本稿では,教師付き微調整によるサンプルエンコーダの学習手法であるサンプルギストリングを提案する。
我々の微調整モデルでは、既成のレトリバーよりも20%以上向上し、最先端のICL性能が得られている。
論文 参考訳(メタデータ) (2023-11-16T06:28:05Z) - MILO: Model-Agnostic Subset Selection Framework for Efficient Model
Training and Tuning [68.12870241637636]
モデル学習からサブセット選択を分離するモデルに依存しないサブセット選択フレームワークMILOを提案する。
実験結果から、MILOはモデルを3ドル(約3,300円)でトレーニングし、ハイパーパラメータを20ドル(約2,300円)でチューニングできます。
論文 参考訳(メタデータ) (2023-01-30T20:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。