Fugu-MT 論文翻訳(概要): Pairwise RM: Perform Best-of-N Sampling with Knockout Tournament

論文の概要: Pairwise RM: Perform Best-of-N Sampling with Knockout Tournament

arxiv url: http://arxiv.org/abs/2501.13007v1
Date: Wed, 22 Jan 2025 16:49:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-23 18:44:14.072688
Title: Pairwise RM: Perform Best-of-N Sampling with Knockout Tournament
Title（参考訳）: Pairwise RM:Knockout Tournamentでベスト・オブ・Nサンプリングを行う
Authors: Yantao Liu, Zijun Yao, Rui Min, Yixin Cao, Lei Hou, Juanzi Li,
Abstract要約: Best-of-N (BoN) サンプリングは、複数の世代から最高のソリューションを選択するために報酬モデルに依存する。本稿では,BoNサンプリングのためのノックアウトトーナメントと組み合わせたPairwise Reward Model(Pairwise RM)を提案する。
参考スコア（独自算出の注目度）: 37.97757796124621
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Best-of-N (BoN) sampling, a common strategy for test-time scaling of Large Language Models (LLMs), relies on reward models to select the best candidate solution from multiple generations. However, traditional reward models often assign arbitrary and inconsistent scores, limiting their effectiveness. To address this, we propose a Pairwise Reward Model (Pairwise RM) combined with a knockout tournament for BoN sampling. Instead of assigning absolute scores, given one math problem, Pairwise RM evaluates two candidate solutions' correctness simultaneously. This approach eliminates the need for arbitrary scoring and enables cross-validation of solutions through parallel comparison. In the knockout tournament, Pairwise RM conducts pairwise comparisons between candidate solutions and eliminates the incorrect ones iteratively. We construct \ourdataset, a large-scale dataset of 443K pairwise comparisons derived from NumiaMath and annotated using \texttt{gemini-1.5-flash}, and train the Pairwise RM via supervised fine-tuning. Experiments on MATH-500 and the Olympiad Bench demonstrate significant improvements over traditional discriminative reward models. And a 40\% to 60\% relative improvement is achieved on the top 50\% challenging problems.
Abstract（参考訳）: 大規模言語モデル(LLM)のテスト時間スケーリングのための一般的な戦略であるBest-of-N(BoN)サンプリングは、複数の世代から最適な候補ソリューションを選択するための報酬モデルに依存している。しかし、伝統的な報酬モデルはしばしば任意で矛盾したスコアを割り当て、その効果を制限している。そこで本研究では,BoNサンプリングのためのノックアウトトーナメントと組み合わせたPairwise Reward Model(Pairwise RM)を提案する。絶対スコアを割り当てる代わりに、Pairwise RMは2つの候補解の正しさを同時に評価する。このアプローチは任意のスコアリングの必要性を排除し、並列比較による解の相互検証を可能にする。ノックアウトトーナメントでは、ペアワイズRMが候補解のペア比較を行い、誤解を反復的に除去する。 NumiaMath から派生した 443K 対比較の大規模データセットである \ourdataset を構築し,教師付き微調整により Pairwise RM を訓練する。 MATH-500とOlympiad Benchの実験では、従来の差別的報酬モデルよりも大幅に改善されている。そして、トップ50%の課題に対して、40～60倍の相対的な改善が達成されます。

関連論文リスト

Test-Time Scaling with Diffusion Language Models via Reward-Guided Stitching [66.39914384073145]
本稿では,安価な拡散サンプリング推論をステップレベル候補の再利用プールに変換する自己整合性フレームワークを提案する。ステップレベルの再結合は、難しい問題に対して最も有益であることがわかった。トレーニング不要のフレームワークは、6つの数学およびコーディングタスクの平均精度を最大2倍改善します。
論文参考訳（メタデータ） (2026-02-26T11:08:39Z)
Sample Smart, Not Hard: Correctness-First Decoding for Better Reasoning in LLMs [72.82403830490084]
我々は、復号規則は正確さによって校正されるべきであり、自信だけではならないと論じている。 Greedy-Threshold はこの目標を達成するための単純な戦略を提案します。この結果から,不確実性の下での復号化が問題視され,数学や一般推論のベンチマークで有意な差がみられた。
論文参考訳（メタデータ） (2025-10-07T14:46:12Z)
GuidedSampling: Steering LLMs Towards Diverse Candidate Solutions at Inference-Time [40.94165318043027]
本稿では,新たな推論アルゴリズムである GuidedSampling を提案する。探索フェーズは問題を解くために利用できる複数の概念を識別し、生成フェーズは最終解候補を提供するための特定の概念を適用する。
論文参考訳（メタデータ） (2025-10-04T11:02:39Z)
RIMO: An Easy-to-Evaluate, Hard-to-Solve Olympiad Benchmark for Advanced Mathematical Reasoning [26.173204350710833]
RIMOは、評価ノイズを排除しつつ、オリンピアードのピークの難しさを抑えるために設計された2トラックのベンチマークである。最初のトラックであるRIMO-Nは、335の問題を書き換えて1つの独特な整数応答を許容し、決定論的正当性チェックを可能にする。第2のトラックであるRIMO-Pは、エキスパートチェックされたソリューションに関する456の証明問題を特徴とし、ステップバイステップの推論プロセスを評価するためにサブプロブレムのシーケンスに分解される。
論文参考訳（メタデータ） (2025-09-09T13:13:51Z)
Batched Stochastic Matching Bandits [43.651070266360954]
本稿では,MNL選択モデルに基づくマッチングのための新しい帯域幅フレームワークを提案する。私たちの設定では、一方の$N$エージェントは他方の$K$アームに割り当てられます。目的は、すべてのエージェントで成功した試合から累積収入を最大化することで、後悔を最小限に抑えることである。
論文参考訳（メタデータ） (2025-09-04T13:16:32Z)
PiCSAR: Probabilistic Confidence Selection And Ranking [46.51719514052471]
推論タスクの鍵となる課題は、接地的真実の答えにアクセスせずに正しい推論チェーンを識別できるスコアリング関数を設計することである。本稿では,確率的信頼度選択とランク付け(PiCSAR)を提案する。解析の結果,正しい推論連鎖は高い推論と回答の信頼性を示し,PiCSARの有効性を正当化していることがわかった。
論文参考訳（メタデータ） (2025-08-29T17:03:47Z)
Error Typing for Smarter Rewards: Improving Process Reward Models with Error-Aware Hierarchical Supervision [20.09181711927194]
PathFinder-PRMは,新しい階層型,誤り認識型識別型PRMである。 PRMBenchでは、PathFinder-PRMが67.7の最先端PRMSコアを新たに達成し、3倍の少ないデータを使用しながら、以前の最高値(65.5)を上回った。
論文参考訳（メタデータ） (2025-05-26T08:56:36Z)
LookAlike: Consistent Distractor Generation in Math MCQs [42.19039301965107]
そこで我々はLookAlikeを提案する。LookAlikeは優先最適化によるエラー・ディトラクタの整合性を改善する手法である。主なイノベーションは、(a)モデル不整合から合成選好ペアをマイニングすること、(b)教師付き微調整の交互化である。 LookAlike は LLM-as-a-judge 評価の下で、イントラクタ生成の精度51.6%、エラー生成の精度57.2% を達成する。
論文参考訳（メタデータ） (2025-05-03T19:18:06Z)
Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文参考訳（メタデータ） (2025-04-04T00:41:40Z)
LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文参考訳（メタデータ） (2024-10-03T18:12:29Z)
Reinforcement Learning from Human Feedback without Reward Inference: Model-Free Algorithm and Instance-Dependent Analysis [16.288866201806382]
モデルフリーなRLHFベストポリシー識別アルゴリズムである$mathsfBSAD$を、明示的な報酬モデル推論なしで開発する。アルゴリズムは、人選好情報から直接、その最適方針を後方方向に識別する。
論文参考訳（メタデータ） (2024-06-11T17:01:41Z)
Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文参考訳（メタデータ） (2023-12-19T13:17:43Z)
AffineGlue: Joint Matching and Robust Estimation [74.04609046690913]
AffineGlue, 連立2視点特徴マッチングとロバストな推定法を提案する。 AffineGlueは、最小限のモデルを推定するために、1対多の対応から潜在的なマッチを選択する。ガイドマッチングはモデルと一致した一致を見つけるために使用され、1対1の一致の曖昧さに悩まされる。
論文参考訳（メタデータ） (2023-07-28T08:05:36Z)
Fit Like You Sample: Sample-Efficient Generalized Score Matching from Fast Mixing Diffusions [29.488555741982015]
幅広いマルコフ過程の混合時間と生成元 $mathcalL$ との密接な関係を示す。我々はマルコフ連鎖を高速化し、より良いスコアマッチング損失を構築する技術に適応する。特に、拡散のプレコンディショニング'をスコア損失の適切なプレコンディショニング'に変換することができる。
論文参考訳（メタデータ） (2023-06-15T17:58:42Z)
Implicitly normalized forecaster with clipping for linear and non-linear heavy-tailed multi-armed bandits [85.27420062094086]
Implicitly Normalized Forecaster (INF) は、敵対的マルチアームバンディット(MAB)問題に対する最適解であると考えられている。重み付き設定のMAB問題に対するクリッピング(INFclip)を用いたINFの新バージョン"Implicitly Normalized Forecaster"を提案する。 INFclipは線形重み付きMAB問題に対して最適であり、非線形問題に対して有効であることを示す。
論文参考訳（メタデータ） (2023-05-11T12:00:43Z)
Two-sided Competing Matching Recommendation Markets With Quota and Complementary Preferences Constraints [13.069703665055084]
本稿では,両面のオンラインマッチング市場において,補完的な嗜好とクォータ制約を伴う問題に対処する新しい推奨アルゴリズムを提案する。混合クォータと相補的な選好制約の存在は、マッチングプロセスの不安定性を引き起こす。バンドレート学習の枠組みとしてこの問題を定式化し,マルチエージェント多型トンプソンサンプリングアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-01-24T18:54:29Z)
Enhancing Self-Consistency and Performance of Pre-Trained Language Models through Natural Language Inference [72.61732440246954]
大規模な事前訓練された言語モデルは、テスト入力間の論理的一貫性を欠いていることが多い。本研究では,事前学習したNLPモデルの一貫性と精度を高めるためのフレームワークであるConCoRDを提案する。 ConCoRDは、市販のクローズドブックQAおよびVQAモデルの精度と一貫性を一貫して向上することを示す。
論文参考訳（メタデータ） (2022-11-21T21:58:30Z)
Reducing Variance in Temporal-Difference Value Estimation via Ensemble of Deep Networks [109.59988683444986]
MeanQは単純なアンサンブル法であり、ターゲット値をアンサンブル平均として推定する。本稿では,Atari Learning Environmentベンチマークを用いた実験において,MeanQが顕著なサンプル効率を示すことを示す。
論文参考訳（メタデータ） (2022-09-16T01:47:36Z)
Deep Probabilistic Graph Matching [72.6690550634166]
本稿では,マッチング制約を伴わずに,元のQAPに適合する深層学習ベースのグラフマッチングフレームワークを提案する。提案手法は,一般的な3つのベンチマーク(Pascal VOC,Wilow Object,SPair-71k)で評価され,すべてのベンチマークにおいて過去の最先端よりも優れていた。
論文参考訳（メタデータ） (2022-01-05T13:37:27Z)
Bootstrap Your Object Detector via Mixed Training [82.98619147880397]
MixTrainingはオブジェクト検出のための新しいトレーニングパラダイムであり、既存の検出器の性能を無償で向上させることができる。異なる強度の増強を利用し、トレーニングに有害な特定のトレーニングサンプルの強い増強を除き、データ増強を強化する。 MixTrainingはCOCOデータセット上のさまざまな検出器間で一貫した改善をもたらす。
論文参考訳（メタデータ） (2021-11-04T17:58:26Z)
Exploiting Transitivity for Top-k Selection with Score-Based Dueling Bandits [0.0]
スコア情報を用いたデュエル・バンディット問題における上位kサブセット選択の問題を検討する。本稿では,thurstonianスタイルモデルを提案し,部分集合選択(pocbam)サンプリング法にペアワイズ最適計算予算割り当てを適用する。
論文参考訳（メタデータ） (2020-12-31T14:54:25Z)
Addressing Class-Imbalance Problem in Personalized Ranking [47.11372043636176]
ペアランク付けモデルのクラスバランス問題を緩和するために,効率的なエンファンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアン VINSは、与えられた正の項目よりも大きい負の候補を受け入れる傾向にある確率を拒絶するバイアスサンプリングである。
論文参考訳（メタデータ） (2020-05-19T08:11:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。