論文の概要: Pairwise RM: Perform Best-of-N Sampling with Knockout Tournament
- arxiv url: http://arxiv.org/abs/2501.13007v1
- Date: Wed, 22 Jan 2025 16:49:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 13:30:05.912160
- Title: Pairwise RM: Perform Best-of-N Sampling with Knockout Tournament
- Title(参考訳): Pairwise RM:Knockout Tournamentでベスト・オブ・Nサンプリングを行う
- Authors: Yantao Liu, Zijun Yao, Rui Min, Yixin Cao, Lei Hou, Juanzi Li,
- Abstract要約: Best-of-N (BoN) サンプリングは、複数の世代から最高のソリューションを選択するために報酬モデルに依存する。
本稿では,BoNサンプリングのためのノックアウトトーナメントと組み合わせたPairwise Reward Model(Pairwise RM)を提案する。
- 参考スコア(独自算出の注目度): 37.97757796124621
- License:
- Abstract: Best-of-N (BoN) sampling, a common strategy for test-time scaling of Large Language Models (LLMs), relies on reward models to select the best candidate solution from multiple generations. However, traditional reward models often assign arbitrary and inconsistent scores, limiting their effectiveness. To address this, we propose a Pairwise Reward Model (Pairwise RM) combined with a knockout tournament for BoN sampling. Instead of assigning absolute scores, given one math problem, Pairwise RM evaluates two candidate solutions' correctness simultaneously. This approach eliminates the need for arbitrary scoring and enables cross-validation of solutions through parallel comparison. In the knockout tournament, Pairwise RM conducts pairwise comparisons between candidate solutions and eliminates the incorrect ones iteratively. We construct \ourdataset, a large-scale dataset of 443K pairwise comparisons derived from NumiaMath and annotated using \texttt{gemini-1.5-flash}, and train the Pairwise RM via supervised fine-tuning. Experiments on MATH-500 and the Olympiad Bench demonstrate significant improvements over traditional discriminative reward models. And a 40\% to 60\% relative improvement is achieved on the top 50\% challenging problems.
- Abstract(参考訳): 大規模言語モデル(LLM)のテスト時間スケーリングのための一般的な戦略であるBest-of-N(BoN)サンプリングは、複数の世代から最適な候補ソリューションを選択するための報酬モデルに依存している。
しかし、伝統的な報酬モデルはしばしば任意で矛盾したスコアを割り当て、その効果を制限している。
そこで本研究では,BoNサンプリングのためのノックアウトトーナメントと組み合わせたPairwise Reward Model(Pairwise RM)を提案する。
絶対スコアを割り当てる代わりに、Pairwise RMは2つの候補解の正しさを同時に評価する。
このアプローチは任意のスコアリングの必要性を排除し、並列比較による解の相互検証を可能にする。
ノックアウトトーナメントでは、ペアワイズRMが候補解のペア比較を行い、誤解を反復的に除去する。
NumiaMath から派生した 443K 対比較の大規模データセットである \ourdataset を構築し,教師付き微調整により Pairwise RM を訓練する。
MATH-500とOlympiad Benchの実験では、従来の差別的報酬モデルよりも大幅に改善されている。
そして、トップ50%の課題に対して、40~60倍の相対的な改善が達成されます。
関連論文リスト
- LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Two-sided Competing Matching Recommendation Markets With Quota and Complementary Preferences Constraints [13.069703665055084]
本稿では,両面のオンラインマッチング市場において,補完的な嗜好とクォータ制約を伴う問題に対処する新しい推奨アルゴリズムを提案する。
混合クォータと相補的な選好制約の存在は、マッチングプロセスの不安定性を引き起こす。
バンドレート学習の枠組みとしてこの問題を定式化し,マルチエージェント多型トンプソンサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-24T18:54:29Z) - Enhancing Self-Consistency and Performance of Pre-Trained Language
Models through Natural Language Inference [72.61732440246954]
大規模な事前訓練された言語モデルは、テスト入力間の論理的一貫性を欠いていることが多い。
本研究では,事前学習したNLPモデルの一貫性と精度を高めるためのフレームワークであるConCoRDを提案する。
ConCoRDは、市販のクローズドブックQAおよびVQAモデルの精度と一貫性を一貫して向上することを示す。
論文 参考訳(メタデータ) (2022-11-21T21:58:30Z) - Reducing Variance in Temporal-Difference Value Estimation via Ensemble
of Deep Networks [109.59988683444986]
MeanQは単純なアンサンブル法であり、ターゲット値をアンサンブル平均として推定する。
本稿では,Atari Learning Environmentベンチマークを用いた実験において,MeanQが顕著なサンプル効率を示すことを示す。
論文 参考訳(メタデータ) (2022-09-16T01:47:36Z) - Bootstrap Your Object Detector via Mixed Training [82.98619147880397]
MixTrainingはオブジェクト検出のための新しいトレーニングパラダイムであり、既存の検出器の性能を無償で向上させることができる。
異なる強度の増強を利用し、トレーニングに有害な特定のトレーニングサンプルの強い増強を除き、データ増強を強化する。
MixTrainingはCOCOデータセット上のさまざまな検出器間で一貫した改善をもたらす。
論文 参考訳(メタデータ) (2021-11-04T17:58:26Z) - Exploiting Transitivity for Top-k Selection with Score-Based Dueling
Bandits [0.0]
スコア情報を用いたデュエル・バンディット問題における上位kサブセット選択の問題を検討する。
本稿では,thurstonianスタイルモデルを提案し,部分集合選択(pocbam)サンプリング法にペアワイズ最適計算予算割り当てを適用する。
論文 参考訳(メタデータ) (2020-12-31T14:54:25Z) - Addressing Class-Imbalance Problem in Personalized Ranking [47.11372043636176]
ペアランク付けモデルのクラスバランス問題を緩和するために,効率的なエンファンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アン
VINSは、与えられた正の項目よりも大きい負の候補を受け入れる傾向にある確率を拒絶するバイアスサンプリングである。
論文 参考訳(メタデータ) (2020-05-19T08:11:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。