Fugu-MT 論文翻訳(概要): PairJudge RM: Perform Best-of-N Sampling with Knockout Tournament

論文の概要: PairJudge RM: Perform Best-of-N Sampling with Knockout Tournament

arxiv url: http://arxiv.org/abs/2501.13007v2
Date: Wed, 19 Feb 2025 13:35:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-20 15:43:06.19851
Title: PairJudge RM: Perform Best-of-N Sampling with Knockout Tournament
Title（参考訳）: PairJudge RM:Knockout Tournamentで最高のNサンプリングを行う
Authors: Yantao Liu, Zijun Yao, Rui Min, Yixin Cao, Lei Hou, Juanzi Li,
Abstract要約: Pairwise Judge Reward Model (PariJudge RM) は、BoNサンプリング用のノックアウトトーナメントと組み合わせている。絶対スコアを割り当てる代わりに、PariJudge RM は2つの候補解の正しさを、チェーン・オブ・ソート推論を同時に判断する。ノックアウトトーナメントでは、PariJudge RMが候補解間のペアワイズ判定を行い、誤判定を反復的に除去する。
参考スコア（独自算出の注目度）: 37.97757796124621
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Best-of-N (BoN) sampling, a common strategy for test-time scaling of Large Language Models (LLMs), relies on reward models to select the best candidate solution from multiple generations. However, traditional reward models often assign arbitrary and inconsistent scores, limiting their effectiveness. To address this, we propose a Pairwise Judge Reward Model (PariJudge RM) combined with a knockout tournament for BoN sampling. Instead of assigning absolute scores, given one math problem, PariJudge RM judges two candidate solutions' correctness with chain-of-thought reasoning simultaneously. This approach eliminates the need for scoring and enables cross-validation of solutions through parallel judgment. In the knockout tournament, PariJudge RM conducts pairwise Judgment between candidate solutions and eliminates the incorrect ones iteratively. We construct PairJudge-432K, a large-scale dataset of 432K pairwise judgments derived from NumiaMath and annotated using \texttt{gemini-1.5-flash}, and train the PariJudge RM via supervised fine-tuning. Experiments on MATH-500 and the Olympiad Bench demonstrate significant improvements over baseline reward models. And a 40\% to 60\% relative improvement is achieved on the top 50\% challenging problems.
Abstract（参考訳）: 大規模言語モデル(LLM)のテスト時間スケーリングのための一般的な戦略であるBest-of-N(BoN)サンプリングは、複数の世代から最適な候補ソリューションを選択するための報酬モデルに依存している。しかし、伝統的な報酬モデルはしばしば任意で矛盾したスコアを割り当て、その効果を制限している。そこで本研究では,BoNサンプリングのためのノックアウトトーナメントとPairwise Judge Reward Model(PariJudge RM)を提案する。絶対スコアを割り当てる代わりに、1つの数学問題を考えると、PariJudge RM は2つの候補解の正しさとチェーン・オブ・ソート推論を同時に判断する。このアプローチは、スコアリングの必要性を排除し、並列判定による解の相互検証を可能にする。ノックアウトトーナメントでは、PariJudge RMが候補解間のペアワイズ判定を行い、誤判定を反復的に除去する。 PairJudge-432K は NumiaMath から派生した 432K 対の判断の大規模データセットで, 注釈を \texttt{gemini-1.5-flash} を用いて作成し, 教師付き微調整により PariJudge RM を訓練する。 MATH-500とOlympiad Benchの実験では、ベースライン報酬モデルよりも大幅に改善された。そして、トップ50%の課題に対して、40～60倍の相対的な改善が達成されます。

関連論文リスト

Test-Time Scaling with Diffusion Language Models via Reward-Guided Stitching [66.39914384073145]
本稿では,安価な拡散サンプリング推論をステップレベル候補の再利用プールに変換する自己整合性フレームワークを提案する。ステップレベルの再結合は、難しい問題に対して最も有益であることがわかった。トレーニング不要のフレームワークは、6つの数学およびコーディングタスクの平均精度を最大2倍改善します。
論文参考訳（メタデータ） (2026-02-26T11:08:39Z)
Sample Smart, Not Hard: Correctness-First Decoding for Better Reasoning in LLMs [72.82403830490084]
我々は、復号規則は正確さによって校正されるべきであり、自信だけではならないと論じている。 Greedy-Threshold はこの目標を達成するための単純な戦略を提案します。この結果から,不確実性の下での復号化が問題視され,数学や一般推論のベンチマークで有意な差がみられた。
論文参考訳（メタデータ） (2025-10-07T14:46:12Z)
GuidedSampling: Steering LLMs Towards Diverse Candidate Solutions at Inference-Time [40.94165318043027]
本稿では,新たな推論アルゴリズムである GuidedSampling を提案する。探索フェーズは問題を解くために利用できる複数の概念を識別し、生成フェーズは最終解候補を提供するための特定の概念を適用する。
論文参考訳（メタデータ） (2025-10-04T11:02:39Z)
RIMO: An Easy-to-Evaluate, Hard-to-Solve Olympiad Benchmark for Advanced Mathematical Reasoning [26.173204350710833]
RIMOは、評価ノイズを排除しつつ、オリンピアードのピークの難しさを抑えるために設計された2トラックのベンチマークである。最初のトラックであるRIMO-Nは、335の問題を書き換えて1つの独特な整数応答を許容し、決定論的正当性チェックを可能にする。第2のトラックであるRIMO-Pは、エキスパートチェックされたソリューションに関する456の証明問題を特徴とし、ステップバイステップの推論プロセスを評価するためにサブプロブレムのシーケンスに分解される。
論文参考訳（メタデータ） (2025-09-09T13:13:51Z)
Batched Stochastic Matching Bandits [43.651070266360954]
本稿では,MNL選択モデルに基づくマッチングのための新しい帯域幅フレームワークを提案する。私たちの設定では、一方の$N$エージェントは他方の$K$アームに割り当てられます。目的は、すべてのエージェントで成功した試合から累積収入を最大化することで、後悔を最小限に抑えることである。
論文参考訳（メタデータ） (2025-09-04T13:16:32Z)
PiCSAR: Probabilistic Confidence Selection And Ranking [46.51719514052471]
推論タスクの鍵となる課題は、接地的真実の答えにアクセスせずに正しい推論チェーンを識別できるスコアリング関数を設計することである。本稿では,確率的信頼度選択とランク付け(PiCSAR)を提案する。解析の結果,正しい推論連鎖は高い推論と回答の信頼性を示し,PiCSARの有効性を正当化していることがわかった。
論文参考訳（メタデータ） (2025-08-29T17:03:47Z)
Error Typing for Smarter Rewards: Improving Process Reward Models with Error-Aware Hierarchical Supervision [20.09181711927194]
PathFinder-PRMは,新しい階層型,誤り認識型識別型PRMである。 PRMBenchでは、PathFinder-PRMが67.7の最先端PRMSコアを新たに達成し、3倍の少ないデータを使用しながら、以前の最高値(65.5)を上回った。
論文参考訳（メタデータ） (2025-05-26T08:56:36Z)
LookAlike: Consistent Distractor Generation in Math MCQs [42.19039301965107]
そこで我々はLookAlikeを提案する。LookAlikeは優先最適化によるエラー・ディトラクタの整合性を改善する手法である。主なイノベーションは、(a)モデル不整合から合成選好ペアをマイニングすること、(b)教師付き微調整の交互化である。 LookAlike は LLM-as-a-judge 評価の下で、イントラクタ生成の精度51.6%、エラー生成の精度57.2% を達成する。
論文参考訳（メタデータ） (2025-05-03T19:18:06Z)
Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文参考訳（メタデータ） (2025-04-04T00:41:40Z)
LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文参考訳（メタデータ） (2024-10-03T18:12:29Z)
Reinforcement Learning from Human Feedback without Reward Inference: Model-Free Algorithm and Instance-Dependent Analysis [16.288866201806382]
モデルフリーなRLHFベストポリシー識別アルゴリズムである$mathsfBSAD$を、明示的な報酬モデル推論なしで開発する。アルゴリズムは、人選好情報から直接、その最適方針を後方方向に識別する。
論文参考訳（メタデータ） (2024-06-11T17:01:41Z)
Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文参考訳（メタデータ） (2023-12-19T13:17:43Z)
AffineGlue: Joint Matching and Robust Estimation [74.04609046690913]
AffineGlue, 連立2視点特徴マッチングとロバストな推定法を提案する。 AffineGlueは、最小限のモデルを推定するために、1対多の対応から潜在的なマッチを選択する。ガイドマッチングはモデルと一致した一致を見つけるために使用され、1対1の一致の曖昧さに悩まされる。
論文参考訳（メタデータ） (2023-07-28T08:05:36Z)
Fit Like You Sample: Sample-Efficient Generalized Score Matching from Fast Mixing Diffusions [29.488555741982015]
幅広いマルコフ過程の混合時間と生成元 $mathcalL$ との密接な関係を示す。我々はマルコフ連鎖を高速化し、より良いスコアマッチング損失を構築する技術に適応する。特に、拡散のプレコンディショニング'をスコア損失の適切なプレコンディショニング'に変換することができる。
論文参考訳（メタデータ） (2023-06-15T17:58:42Z)
Implicitly normalized forecaster with clipping for linear and non-linear heavy-tailed multi-armed bandits [85.27420062094086]
Implicitly Normalized Forecaster (INF) は、敵対的マルチアームバンディット(MAB)問題に対する最適解であると考えられている。重み付き設定のMAB問題に対するクリッピング(INFclip)を用いたINFの新バージョン"Implicitly Normalized Forecaster"を提案する。 INFclipは線形重み付きMAB問題に対して最適であり、非線形問題に対して有効であることを示す。
論文参考訳（メタデータ） (2023-05-11T12:00:43Z)
Two-sided Competing Matching Recommendation Markets With Quota and Complementary Preferences Constraints [13.069703665055084]
本稿では,両面のオンラインマッチング市場において,補完的な嗜好とクォータ制約を伴う問題に対処する新しい推奨アルゴリズムを提案する。混合クォータと相補的な選好制約の存在は、マッチングプロセスの不安定性を引き起こす。バンドレート学習の枠組みとしてこの問題を定式化し,マルチエージェント多型トンプソンサンプリングアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-01-24T18:54:29Z)
Enhancing Self-Consistency and Performance of Pre-Trained Language Models through Natural Language Inference [72.61732440246954]
大規模な事前訓練された言語モデルは、テスト入力間の論理的一貫性を欠いていることが多い。本研究では,事前学習したNLPモデルの一貫性と精度を高めるためのフレームワークであるConCoRDを提案する。 ConCoRDは、市販のクローズドブックQAおよびVQAモデルの精度と一貫性を一貫して向上することを示す。
論文参考訳（メタデータ） (2022-11-21T21:58:30Z)
Reducing Variance in Temporal-Difference Value Estimation via Ensemble of Deep Networks [109.59988683444986]
MeanQは単純なアンサンブル法であり、ターゲット値をアンサンブル平均として推定する。本稿では,Atari Learning Environmentベンチマークを用いた実験において,MeanQが顕著なサンプル効率を示すことを示す。
論文参考訳（メタデータ） (2022-09-16T01:47:36Z)
Deep Probabilistic Graph Matching [72.6690550634166]
本稿では,マッチング制約を伴わずに,元のQAPに適合する深層学習ベースのグラフマッチングフレームワークを提案する。提案手法は,一般的な3つのベンチマーク(Pascal VOC,Wilow Object,SPair-71k)で評価され,すべてのベンチマークにおいて過去の最先端よりも優れていた。
論文参考訳（メタデータ） (2022-01-05T13:37:27Z)
Bootstrap Your Object Detector via Mixed Training [82.98619147880397]
MixTrainingはオブジェクト検出のための新しいトレーニングパラダイムであり、既存の検出器の性能を無償で向上させることができる。異なる強度の増強を利用し、トレーニングに有害な特定のトレーニングサンプルの強い増強を除き、データ増強を強化する。 MixTrainingはCOCOデータセット上のさまざまな検出器間で一貫した改善をもたらす。
論文参考訳（メタデータ） (2021-11-04T17:58:26Z)
Exploiting Transitivity for Top-k Selection with Score-Based Dueling Bandits [0.0]
スコア情報を用いたデュエル・バンディット問題における上位kサブセット選択の問題を検討する。本稿では,thurstonianスタイルモデルを提案し,部分集合選択(pocbam)サンプリング法にペアワイズ最適計算予算割り当てを適用する。
論文参考訳（メタデータ） (2020-12-31T14:54:25Z)
Addressing Class-Imbalance Problem in Personalized Ranking [47.11372043636176]
ペアランク付けモデルのクラスバランス問題を緩和するために,効率的なエンファンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアンダーラインアン VINSは、与えられた正の項目よりも大きい負の候補を受け入れる傾向にある確率を拒絶するバイアスサンプリングである。
論文参考訳（メタデータ） (2020-05-19T08:11:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。