論文の概要: Pairwise RM: Perform Best-of-N Sampling with Knockout Tournament
- arxiv url: http://arxiv.org/abs/2501.13007v1
- Date: Wed, 22 Jan 2025 16:49:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 13:30:05.912160
- Title: Pairwise RM: Perform Best-of-N Sampling with Knockout Tournament
- Title(参考訳): Pairwise RM:Knockout Tournamentでベスト・オブ・Nサンプリングを行う
- Authors: Yantao Liu, Zijun Yao, Rui Min, Yixin Cao, Lei Hou, Juanzi Li,
- Abstract要約: Best-of-N (BoN) サンプリングは、複数の世代から最高のソリューションを選択するために報酬モデルに依存する。
本稿では,BoNサンプリングのためのノックアウトトーナメントと組み合わせたPairwise Reward Model(Pairwise RM)を提案する。
- 参考スコア(独自算出の注目度): 37.97757796124621
- License:
- Abstract: Best-of-N (BoN) sampling, a common strategy for test-time scaling of Large Language Models (LLMs), relies on reward models to select the best candidate solution from multiple generations. However, traditional reward models often assign arbitrary and inconsistent scores, limiting their effectiveness. To address this, we propose a Pairwise Reward Model (Pairwise RM) combined with a knockout tournament for BoN sampling. Instead of assigning absolute scores, given one math problem, Pairwise RM evaluates two candidate solutions' correctness simultaneously. This approach eliminates the need for arbitrary scoring and enables cross-validation of solutions through parallel comparison. In the knockout tournament, Pairwise RM conducts pairwise comparisons between candidate solutions and eliminates the incorrect ones iteratively. We construct \ourdataset, a large-scale dataset of 443K pairwise comparisons derived from NumiaMath and annotated using \texttt{gemini-1.5-flash}, and train the Pairwise RM via supervised fine-tuning. Experiments on MATH-500 and the Olympiad Bench demonstrate significant improvements over traditional discriminative reward models. And a 40\% to 60\% relative improvement is achieved on the top 50\% challenging problems.
- Abstract(参考訳): 大規模言語モデル(LLM)のテスト時間スケーリングのための一般的な戦略であるBest-of-N(BoN)サンプリングは、複数の世代から最適な候補ソリューションを選択するための報酬モデルに依存している。
しかし、伝統的な報酬モデルはしばしば任意で矛盾したスコアを割り当て、その効果を制限している。
そこで本研究では,BoNサンプリングのためのノックアウトトーナメントと組み合わせたPairwise Reward Model(Pairwise RM)を提案する。
絶対スコアを割り当てる代わりに、Pairwise RMは2つの候補解の正しさを同時に評価する。
このアプローチは任意のスコアリングの必要性を排除し、並列比較による解の相互検証を可能にする。
ノックアウトトーナメントでは、ペアワイズRMが候補解のペア比較を行い、誤解を反復的に除去する。
NumiaMath から派生した 443K 対比較の大規模データセットである \ourdataset を構築し,教師付き微調整により Pairwise RM を訓練する。
MATH-500とOlympiad Benchの実験では、従来の差別的報酬モデルよりも大幅に改善されている。
そして、トップ50%の課題に対して、40~60倍の相対的な改善が達成されます。
関連論文リスト
- LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Semisupervised score based matching algorithm to evaluate the effect of public health interventions [3.221788913179251]
1対1のマッチングアルゴリズムでは、マッチする多数の"ペア"は、大きなサンプルからの情報と多数のタスクの両方を意味する可能性がある。
本稿では,2次スコア関数 $S_beta(x_i,x_j)= betaT (x_i-x_j)(x_i-x_j)T beta$ に基づく新しい1対1マッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-19T02:24:16Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - AffineGlue: Joint Matching and Robust Estimation [74.04609046690913]
AffineGlue, 連立2視点特徴マッチングとロバストな推定法を提案する。
AffineGlueは、最小限のモデルを推定するために、1対多の対応から潜在的なマッチを選択する。
ガイドマッチングはモデルと一致した一致を見つけるために使用され、1対1の一致の曖昧さに悩まされる。
論文 参考訳(メタデータ) (2023-07-28T08:05:36Z) - Two-sided Competing Matching Recommendation Markets With Quota and Complementary Preferences Constraints [13.069703665055084]
本稿では,両面のオンラインマッチング市場において,補完的な嗜好とクォータ制約を伴う問題に対処する新しい推奨アルゴリズムを提案する。
混合クォータと相補的な選好制約の存在は、マッチングプロセスの不安定性を引き起こす。
バンドレート学習の枠組みとしてこの問題を定式化し,マルチエージェント多型トンプソンサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-24T18:54:29Z) - Deep Probabilistic Graph Matching [72.6690550634166]
本稿では,マッチング制約を伴わずに,元のQAPに適合する深層学習ベースのグラフマッチングフレームワークを提案する。
提案手法は,一般的な3つのベンチマーク(Pascal VOC,Wilow Object,SPair-71k)で評価され,すべてのベンチマークにおいて過去の最先端よりも優れていた。
論文 参考訳(メタデータ) (2022-01-05T13:37:27Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - Exploiting Transitivity for Top-k Selection with Score-Based Dueling
Bandits [0.0]
スコア情報を用いたデュエル・バンディット問題における上位kサブセット選択の問題を検討する。
本稿では,thurstonianスタイルモデルを提案し,部分集合選択(pocbam)サンプリング法にペアワイズ最適計算予算割り当てを適用する。
論文 参考訳(メタデータ) (2020-12-31T14:54:25Z) - Addressing Class-Imbalance Problem in Personalized Ranking [47.11372043636176]
ペアランク付けモデルのクラスバランス問題を緩和するために,効率的なエンファンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アンダーライン アン
VINSは、与えられた正の項目よりも大きい負の候補を受け入れる傾向にある確率を拒絶するバイアスサンプリングである。
論文 参考訳(メタデータ) (2020-05-19T08:11:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。