Fugu-MT 論文翻訳(概要): GenSelect: A Generative Approach to Best-of-N

論文の概要: GenSelect: A Generative Approach to Best-of-N

arxiv url: http://arxiv.org/abs/2507.17797v1
Date: Wed, 23 Jul 2025 15:22:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-25 15:10:42.319898
Title: GenSelect: A Generative Approach to Best-of-N
Title（参考訳）: GenSelect:Best-of-Nへのジェネレーティブアプローチ
Authors: Shubham Toshniwal, Ivan Sorokin, Aleksander Ficek, Ivan Moshkov, Igor Gitman,
Abstract要約: 我々はGenSelectを紹介し、LLMは長い推論を用いてN候補の中から最良の解を選択する。数学の推論では、GenSelect では、QwQ や DeepSeek-R1-0528 のような推論モデルが優れていることを示す。
参考スコア（独自算出の注目度）: 46.74684914760564
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generative reward models with parallel sampling have enabled effective test-time scaling for reasoning tasks. Current approaches employ pointwise scoring of individual solutions or pairwise comparisons. However, pointwise methods underutilize LLMs' comparative abilities, while pairwise methods scale inefficiently with larger sampling budgets. We introduce GenSelect, where the LLM uses long reasoning to select the best solution among N candidates. This leverages LLMs' comparative strengths while scaling efficiently across parallel sampling budgets. For math reasoning, we demonstrate that reasoning models, such as QwQ and DeepSeek-R1-0528, excel at GenSelect, outperforming existing scoring approaches with simple prompting.
Abstract（参考訳）: 並列サンプリングによる生成的報酬モデルにより、推論タスクの効率的なテスト時間スケーリングが可能になった。現在のアプローチでは、個々の解のポイントワイズスコアやペアワイズ比較が採用されている。しかし、ポイントワイズ法はLLMの比較能力を弱め、ペアワイズ法はより大規模なサンプリング予算で非効率にスケールする。我々はGenSelectを紹介し、LLMは長い推論を用いてN候補の中から最良の解を選択する。これはLLMの比較強度を活用しながら、並列サンプリング予算を効果的にスケーリングする。数理推論では,GenSelect の優れた QwQ や DeepSeek-R1-0528 などの推論モデルが,単純なプロンプトで既存のスコアリング手法よりも優れていることを示す。

関連論文リスト

Duel-Evolve: Reward-Free Test-Time Scaling via LLM Self-Preferences [7.715856473694668]
このアルゴリズムは、外部スカラー報酬を、候補を生成するのに使用するLLMと同じLLMから得られるペアの選好に置き換えるものである。 Duel-Evolveはベイジアン・ブラッドリー・テリーモデルを通じてノイズの多い候補比較を集計し、候補品質の不確実性を考慮した推定結果を得る。既存のメソッドやベースラインよりも20パーセント高い精度でDuel-Evolveを、LiveCodeBenchでは12パーセント以上改善した。
論文参考訳（メタデータ） (2026-02-25T05:16:11Z)
MentorCollab: Selective Large-to-Small Inference-Time Guidance for Efficient Reasoning [85.05204262206296]
大きな推論モデル(LRM)は、長い思考の連鎖を生成することによって、強い性能を達成するが、その推論コストは高い。小型言語モデル(SLM)はより効率的であるが、多段階推論タスクでは困難である。本研究では, LRM が SLM を選択的かつ簡潔にガイドする推論時協調手法である MentorCollab を提案する。
論文参考訳（メタデータ） (2026-02-05T04:58:16Z)
Learning Generative Selection for Best-of-N [52.88943295436412]
目的の強化学習によって、小さな推論モデルによって強力なGenSelect能力が得られることを示す。この結果は,小規模モデルにおける強力な生成的選択を解放するスケーラブルな手法として強化学習を確立した。
論文参考訳（メタデータ） (2026-02-02T14:21:15Z)
Access Paths for Efficient Ordering with Large Language Models [7.826046892571884]
本稿では,LLM ORDER BY演算子を論理抽象として提示し,その物理実装を統一評価フレームワーク内で検討する。合意に基づくバッチサイズポリシー,ペアソートのための多数投票機構,LLMに適合した双方向の外部マージソートという3つの新しい設計を導入する。
論文参考訳（メタデータ） (2025-08-30T01:44:36Z)
Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。 GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文参考訳（メタデータ） (2025-08-27T06:51:48Z)
Reasoning on a Budget: A Survey of Adaptive and Controllable Test-Time Compute in LLMs [45.83245433138508]
大規模言語モデル(LLM)は、幅広いタスクを解くことができる汎用エージェントへと急速に進歩してきた。彼らは、タスクの複雑さに関わらず、固定推論時間計算を適用し、しばしば難しいことを考えながら単純な問題を過小評価する。本調査では, LLM推論の計算効率向上を目的とした, 効率的なテスト時間計算戦略の総合的なレビューを行う。
論文参考訳（メタデータ） (2025-07-02T18:27:42Z)
Efficient Model Selection for Time Series Forecasting via LLMs [52.31535714387368]
本稿では,Large Language Models (LLM) をモデル選択の軽量な代替手段として活用することを提案する。提案手法は, LLMの固有知識と推論能力を活用することで, 明示的な性能行列の必要性を解消する。
論文参考訳（メタデータ） (2025-04-02T20:33:27Z)
Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文参考訳（メタデータ） (2025-02-25T19:08:07Z)
Generative Verifiers: Reward Modeling as Next-Token Prediction [29.543787728397643]
本研究では,ユビキタスな次世代予測目標を用いて,検証とソリューション生成を併用したトレーニング検証手法を提案する。標準検証器と比較して、そのような生成検証器(genRM)はLLMのいくつかの利点の恩恵を受けることができる。我々は、MATHで28%$rightarrow$44.6%、MMLU抽象代数学で37.9%$rightarrow$53.5%の改善を観察する。
論文参考訳（メタデータ） (2024-08-27T17:57:45Z)
SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language Models [8.558834738072363]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがる顕著な性能のために広く採用されている。これらの個々のLCMは、固有のトレーニングバイアス、モデルサイズ制約、トレーニング前のデータセットの品質や多様性による、複雑なタスクの一般化とパフォーマンスの制限を示す。本稿では,入力クエリをLLMの最も適切なサブセットに効率的に誘導するSelectLLMを紹介する。
論文参考訳（メタデータ） (2024-08-16T06:11:21Z)
Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文参考訳（メタデータ） (2024-07-23T06:21:24Z)
BOND: Aligning LLMs with Best-of-N Distillation [63.254031574394965]
BOND(Best-of-N Distillation)は,Best-of-Nをエミュレートする新しいRLHFアルゴリズムである。具体的には、BONDは、ポリシーから世代分布をBest-of-N分布に近づけるように強制する分布マッチングアルゴリズムである。本稿では,抽象的な要約モデルとGemmaモデルの実験を通じて,提案手法の有効性といくつかの設計選択を実証する。
論文参考訳（メタデータ） (2024-07-19T18:38:25Z)
Leveraging LLMs for Dialogue Quality Measurement [27.046917937460798]
大規模言語モデル(LLM)は、NLPタスク全体で堅牢なゼロショットと少数ショットの機能を提供する。モデルサイズ,文脈内例,選択手法などの操作要因を考察し,CoT推論とラベル抽出手法について検討する。この結果から,適切な微調整と十分な推論能力を有するLCMを自動対話評価に活用できることが示唆された。
論文参考訳（メタデータ） (2024-06-25T06:19:47Z)
Optimising Calls to Large Language Models with Uncertainty-Based Two-Tier Selection [80.63946798650653]
決定は、より優れた性能を持つ大型LCMを使うか、より少ないコストで使用するかに重点を置いている。我々は,LLMの世代間不確実性のみを意思決定基準として,より単純な解を提案する。実験の結果、この単純な解はコストと性能を最適にバランスさせ、27の試験装置中25の既存手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-05-03T14:38:59Z)
A distribution-free mixed-integer optimization approach to hierarchical modelling of clustered and longitudinal data [0.0]
我々は,新しいデータポイントに対するクラスタ効果を評価する革新的なアルゴリズムを導入し,このモデルのロバスト性や精度を高める。このアプローチの推論的および予測的効果は、学生のスコアリングとタンパク質発現に適用することでさらに説明される。
論文参考訳（メタデータ） (2023-02-06T23:34:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。