論文の概要: Duel-Evolve: Reward-Free Test-Time Scaling via LLM Self-Preferences
- arxiv url: http://arxiv.org/abs/2602.21585v1
- Date: Wed, 25 Feb 2026 05:16:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.711239
- Title: Duel-Evolve: Reward-Free Test-Time Scaling via LLM Self-Preferences
- Title(参考訳): Duel-Evolve: LLM自己設定によるリワードフリーテストタイムスケーリング
- Authors: Sweta Karlekar, Carolina Zheng, Magnus Saebo, Nicolas Beltran-Velez, Shuyang Yu, John Bowlan, Michal Kucer, David Blei,
- Abstract要約: このアルゴリズムは、外部スカラー報酬を、候補を生成するのに使用するLLMと同じLLMから得られるペアの選好に置き換えるものである。
Duel-Evolveはベイジアン・ブラッドリー・テリーモデルを通じてノイズの多い候補比較を集計し、候補品質の不確実性を考慮した推定結果を得る。
既存のメソッドやベースラインよりも20パーセント高い精度でDuel-Evolveを、LiveCodeBenchでは12パーセント以上改善した。
- 参考スコア(独自算出の注目度): 7.715856473694668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many applications seek to optimize LLM outputs at test time by iteratively proposing, scoring, and refining candidates over a discrete output space. Existing methods use a calibrated scalar evaluator for the target objective to guide search, but for many tasks such scores are unavailable, too sparse, or unreliable. Pairwise comparisons, by contrast, are often easier to elicit, still provide useful signal on improvement directions, and can be obtained from the LLM itself without external supervision. Building on this observation, we introduce Duel-Evolve, an evolutionary optimization algorithm that replaces external scalar rewards with pairwise preferences elicited from the same LLM used to generate candidates. Duel-Evolve aggregates these noisy candidate comparisons via a Bayesian Bradley-Terry model, yielding uncertainty-aware estimates of candidate quality. These quality estimates guide allocation of the comparison budget toward plausible optima using Double Thompson Sampling, as well as selection of high-quality parents to generate improved candidates. We evaluate Duel-Evolve on MathBench, where it achieves 20 percentage points higher accuracy over existing methods and baselines, and on LiveCodeBench, where it improves over comparable iterative methods by over 12 percentage points. Notably, the method requires no reward model, no ground-truth labels during search, and no hand-crafted scoring function. Results show that pairwise self-preferences provide strong optimization signal for test-time improvement over large, discrete output spaces.
- Abstract(参考訳): 多くのアプリケーションは、個別の出力空間上の候補を反復的に提案し、スコア付けし、精製することで、テスト時にLCM出力を最適化しようとする。
既存の手法では、目標目標に対して校正されたスカラー評価器を使用して探索を誘導するが、多くのタスクではそのようなスコアは利用できない、スパースすぎる、信頼できない。
対照的に、ペアワイズ比較は、しばしば誘引し易く、改善方向に関する有用な信号を提供し、外部の監視なしにLLM自体から得ることができる。
この観測に基づいて、我々は、外部スカラー報酬を、候補を生成するのに使用するLLMから得られるペアの選好に置き換える進化最適化アルゴリズムであるDuel-Evolveを紹介した。
Duel-Evolve はベイジアン・ブラッドリー・テリーモデルを通じてこれらのノイズの多い候補の比較を集計し、候補品質の不確実性を考慮した推定結果を得る。
これらの品質推定は、Double Thompson Smpling を用いた比較予算の最適化と、改良された候補を生成するための高品質な親の選択を導く。
既存のメソッドやベースラインよりも20パーセント高い精度でDuel-Evolveを、LiveCodeBenchでは12パーセント以上改善した。
特に,提案手法では,報酬モデルや探索中の接地トラストラベル,手作りのスコアリング機能を必要としない。
その結果、ペアの自己参照は、大規模で離散的な出力空間上でのテスト時間改善のための強力な最適化信号を提供することが示された。
関連論文リスト
- GenSelect: A Generative Approach to Best-of-N [46.74684914760564]
我々はGenSelectを紹介し、LLMは長い推論を用いてN候補の中から最良の解を選択する。
数学の推論では、GenSelect では、QwQ や DeepSeek-R1-0528 のような推論モデルが優れていることを示す。
論文 参考訳(メタデータ) (2025-07-23T15:22:51Z) - Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。
テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。
マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文 参考訳(メタデータ) (2025-04-04T00:41:40Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [75.1351701045874]
Best-of-N selectionは、Large Language Models(LLMs)の推論性能を改善するための重要なテクニックである。
本稿では, LLM出力の固有確率分布を利用して, 外部報酬モデルを必要としない応答品質を推定する, 新規で効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - MM-RLHF: The Next Step Forward in Multimodal LLM Alignment [59.536850459059856]
MM-RLHF, $mathbf120k$ fine-fine, human-annotated preference comparison pairsを含むデータセットを紹介する。
本稿では,報酬モデルの品質向上とアライメントアルゴリズムの効率向上のために,いくつかの重要なイノベーションを提案する。
我々のアプローチは、$mathbf10$の異なる次元と$mathbf27$のベンチマークで厳格に評価されている。
論文 参考訳(メタデータ) (2025-02-14T18:59:51Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。
本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - PRD: Peer Rank and Discussion Improve Large Language Model based Evaluations [10.709365940160685]
現代の大規模言語モデル(LLM)は、自動評価と比較が難しい。
本稿では,全ての解答対に対するLLMのペアワイズ選好を考慮に入れたピアランク(PR)アルゴリズムを提案する。
我々のアプローチは高い精度を実現し、人間の判断とよく一致していることがわかりました。
論文 参考訳(メタデータ) (2023-07-06T04:05:44Z) - Let's Sample Step by Step: Adaptive-Consistency for Efficient Reasoning
and Coding with LLMs [60.58434523646137]
大規模言語モデル(LLM)からの出力の正確性を改善するための一般的なアプローチは、自己整合性である。
コスト効率のよいモデルに依存しない手法であるAdaptive-Consistencyを導入し,各質問のサンプル数を動的に調整する。
実験の結果,Adaptive-Consistencyはサンプル予算を最大7.9倍に削減し,平均精度は0.1%以下であった。
論文 参考訳(メタデータ) (2023-05-19T17:49:25Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。