論文の概要: PairJudge RM: Perform Best-of-N Sampling with Knockout Tournament
- arxiv url: http://arxiv.org/abs/2501.13007v2
- Date: Wed, 19 Feb 2025 13:35:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 13:56:33.454287
- Title: PairJudge RM: Perform Best-of-N Sampling with Knockout Tournament
- Title(参考訳): PairJudge RM:Knockout Tournamentで最高のNサンプリングを行う
- Authors: Yantao Liu, Zijun Yao, Rui Min, Yixin Cao, Lei Hou, Juanzi Li,
- Abstract要約: Pairwise Judge Reward Model (PariJudge RM) は、BoNサンプリング用のノックアウトトーナメントと組み合わせている。
絶対スコアを割り当てる代わりに、PariJudge RM は2つの候補解の正しさを、チェーン・オブ・ソート推論を同時に判断する。
ノックアウトトーナメントでは、PariJudge RMが候補解間のペアワイズ判定を行い、誤判定を反復的に除去する。
- 参考スコア(独自算出の注目度): 37.97757796124621
- License:
- Abstract: Best-of-N (BoN) sampling, a common strategy for test-time scaling of Large Language Models (LLMs), relies on reward models to select the best candidate solution from multiple generations. However, traditional reward models often assign arbitrary and inconsistent scores, limiting their effectiveness. To address this, we propose a Pairwise Judge Reward Model (PariJudge RM) combined with a knockout tournament for BoN sampling. Instead of assigning absolute scores, given one math problem, PariJudge RM judges two candidate solutions' correctness with chain-of-thought reasoning simultaneously. This approach eliminates the need for scoring and enables cross-validation of solutions through parallel judgment. In the knockout tournament, PariJudge RM conducts pairwise Judgment between candidate solutions and eliminates the incorrect ones iteratively. We construct PairJudge-432K, a large-scale dataset of 432K pairwise judgments derived from NumiaMath and annotated using \texttt{gemini-1.5-flash}, and train the PariJudge RM via supervised fine-tuning. Experiments on MATH-500 and the Olympiad Bench demonstrate significant improvements over baseline reward models. And a 40\% to 60\% relative improvement is achieved on the top 50\% challenging problems.
- Abstract(参考訳): 大規模言語モデル(LLM)のテスト時間スケーリングのための一般的な戦略であるBest-of-N(BoN)サンプリングは、複数の世代から最適な候補ソリューションを選択するための報酬モデルに依存している。
しかし、伝統的な報酬モデルはしばしば任意で矛盾したスコアを割り当て、その効果を制限している。
そこで本研究では,BoNサンプリングのためのノックアウトトーナメントとPairwise Judge Reward Model(PariJudge RM)を提案する。
絶対スコアを割り当てる代わりに、1つの数学問題を考えると、PariJudge RM は2つの候補解の正しさとチェーン・オブ・ソート推論を同時に判断する。
このアプローチは、スコアリングの必要性を排除し、並列判定による解の相互検証を可能にする。
ノックアウトトーナメントでは、PariJudge RMが候補解間のペアワイズ判定を行い、誤判定を反復的に除去する。
PairJudge-432K は NumiaMath から派生した 432K 対の判断の大規模データセットで, 注釈を \texttt{gemini-1.5-flash} を用いて作成し, 教師付き微調整により PariJudge RM を訓練する。
MATH-500とOlympiad Benchの実験では、ベースライン報酬モデルよりも大幅に改善された。
そして、トップ50%の課題に対して、40~60倍の相対的な改善が達成されます。
関連論文リスト
- LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Two-sided Competing Matching Recommendation Markets With Quota and Complementary Preferences Constraints [13.069703665055084]
本稿では,両面のオンラインマッチング市場において,補完的な嗜好とクォータ制約を伴う問題に対処する新しい推奨アルゴリズムを提案する。
混合クォータと相補的な選好制約の存在は、マッチングプロセスの不安定性を引き起こす。
バンドレート学習の枠組みとしてこの問題を定式化し,マルチエージェント多型トンプソンサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-24T18:54:29Z) - Enhancing Self-Consistency and Performance of Pre-Trained Language
Models through Natural Language Inference [72.61732440246954]
大規模な事前訓練された言語モデルは、テスト入力間の論理的一貫性を欠いていることが多い。
本研究では,事前学習したNLPモデルの一貫性と精度を高めるためのフレームワークであるConCoRDを提案する。
ConCoRDは、市販のクローズドブックQAおよびVQAモデルの精度と一貫性を一貫して向上することを示す。
論文 参考訳(メタデータ) (2022-11-21T21:58:30Z) - Reducing Variance in Temporal-Difference Value Estimation via Ensemble
of Deep Networks [109.59988683444986]
MeanQは単純なアンサンブル法であり、ターゲット値をアンサンブル平均として推定する。
本稿では,Atari Learning Environmentベンチマークを用いた実験において,MeanQが顕著なサンプル効率を示すことを示す。
論文 参考訳(メタデータ) (2022-09-16T01:47:36Z) - Bootstrap Your Object Detector via Mixed Training [82.98619147880397]
MixTrainingはオブジェクト検出のための新しいトレーニングパラダイムであり、既存の検出器の性能を無償で向上させることができる。
異なる強度の増強を利用し、トレーニングに有害な特定のトレーニングサンプルの強い増強を除き、データ増強を強化する。
MixTrainingはCOCOデータセット上のさまざまな検出器間で一貫した改善をもたらす。
論文 参考訳(メタデータ) (2021-11-04T17:58:26Z) - Exploiting Transitivity for Top-k Selection with Score-Based Dueling
Bandits [0.0]
スコア情報を用いたデュエル・バンディット問題における上位kサブセット選択の問題を検討する。
本稿では,thurstonianスタイルモデルを提案し,部分集合選択(pocbam)サンプリング法にペアワイズ最適計算予算割り当てを適用する。
論文 参考訳(メタデータ) (2020-12-31T14:54:25Z) - Addressing Class-Imbalance Problem in Personalized Ranking [47.11372043636176]
ペアランク付けモデルのクラスバランス問題を緩和するために,効率的なエンファンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アン
VINSは、与えられた正の項目よりも大きい負の候補を受け入れる傾向にある確率を拒絶するバイアスサンプリングである。
論文 参考訳(メタデータ) (2020-05-19T08:11:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。