論文の概要: OpenDeepThink: Parallel Reasoning via Bradley-Terry Aggregation
- arxiv url: http://arxiv.org/abs/2605.15177v2
- Date: Sun, 17 May 2026 19:31:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.283904
- Title: OpenDeepThink: Parallel Reasoning via Bradley-Terry Aggregation
- Title(参考訳): OpenDeepThink: Bradley-Terryアグリゲーションによる並列推論
- Authors: Shang Zhou, Wenhao Chai, Kaiyuan Liu, Huanzhi Mao, Qiuyang Mang, Jingbo Shang,
- Abstract要約: OpenDeepThinkは、集団ベースのテスト時間計算フレームワークで、ペアワイズBradley-Terryの比較によって選択する。
OpenDeepThinkはGemini 3.1 ProのCodeforces Eloを8回のLCMコールラウンドで+405ポイント引き上げる。
CF-73は、国際グランドマスターアノテーションによる73の専門家評価コードフォース問題と、公式判決に対する99%の地域評価合意のキュレートされたセットである。
- 参考スコア(独自算出の注目度): 53.88666485159289
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time compute scaling is a primary axis for improving LLM reasoning. Existing methods primarily scale depth by extending a single reasoning trace. Scaling breadth by sampling multiple candidates in parallel is straightforward, but introduces a selection bottleneck: choosing the best candidate without a ground-truth verifier, since pointwise LLM judging is noisy and biased. To address this, we introduce OpenDeepThink, a population-based test-time compute framework that selects via pairwise Bradley-Terry comparison. Each generation, the LLM judges random pairs of candidates and aggregates votes via Bradley-Terry into a global ranking; top-ranked candidates are preserved and the top three quarters are mutated using the natural-language critiques produced during comparison; the bottom quarter is discarded. OpenDeepThink raises Gemini 3.1 Pro's effective Codeforces Elo by +405 points in eight sequential LLM-call rounds (~27 minutes wall-clock). The pipeline transfers across weaker and stronger models without retuning, and on the multi-domain HLE benchmark, gains appear concentrated in objectively verifiable domains and reverse in subjective ones. We release CF-73, a curated set of 73 expert-rated Codeforces problems with International Grandmaster annotation and 99% local-evaluation agreement against the official verdict.
- Abstract(参考訳): テストタイムの計算スケーリングは、LLM推論を改善するための主要な軸である。
既存の方法は、主に1つの推論トレースを拡張することで深さを拡大する。
複数の候補を並列にサンプリングすることで幅を拡大することは簡単だが、選択ボトルネックが生じる。
これを解決するために,集団ベースのテストタイム計算フレームワークであるOpenDeepThinkを紹介した。
各世代はランダムな候補者のペアを判断し、ブラッドリー・テリーを通した投票を世界ランキングにまとめ、上位の候補者は保存され、上位3分の1は比較中に作成された自然言語による批評で変更され、下位4分の1は破棄される。
OpenDeepThinkはGemini 3.1 ProのCodeforces Eloを8回のLCMコールラウンド(約27分の壁時計)で+405ポイント引き上げる。
パイプラインは、修正することなくより弱いモデルとより強いモデル間で転送され、マルチドメインのHLEベンチマークでは、ゲインは客観的に検証可能なドメインに集中し、主観的なモデルでは逆になる。
CF-73は、国際グランドマスターアノテーションによる73の専門家評価コードフォース問題と、公式判決に対する99%の地域評価合意のキュレートされたセットである。
関連論文リスト
- Semantic Voting: Execution-Grounded Consensus for LLM Code Generation [11.731523303184472]
最高の実行ベースのセレクタは、出力パターンの多数決を各構成で19-52ポイント上回る。
より深い思考は、多数決を12ppで改善するが、実行ベースのメソッドは、候補の多様性が低下するにつれて、フラットまたは低下し続ける。
これらの結果から,アグリゲーションルール問題ではなく,信号品質問題としてのフレーム推論時符号選択が可能となった。
論文 参考訳(メタデータ) (2026-05-09T04:33:39Z) - Duel-Evolve: Reward-Free Test-Time Scaling via LLM Self-Preferences [7.715856473694668]
このアルゴリズムは、外部スカラー報酬を、候補を生成するのに使用するLLMと同じLLMから得られるペアの選好に置き換えるものである。
Duel-Evolveはベイジアン・ブラッドリー・テリーモデルを通じてノイズの多い候補比較を集計し、候補品質の不確実性を考慮した推定結果を得る。
既存のメソッドやベースラインよりも20パーセント高い精度でDuel-Evolveを、LiveCodeBenchでは12パーセント以上改善した。
論文 参考訳(メタデータ) (2026-02-25T05:16:11Z) - Beyond Majority Voting: LLM Aggregation by Leveraging Higher-Order Information [57.397381631496906]
最適重み(OW)と逆サプライシング人気度(ISP)という2つの新しいアグリゲーションアルゴリズムを開発した。
我々の理論的分析は、これらの手法が軽微な仮定の下での多数決の本質的な制限を確実に緩和することを示している。
我々は,我々のアルゴリズムを人工データセット,UltraFeedbackやMMLUなどのLLMファインチューニングベンチマーク,実世界の医療環境ARMMAN上で実証的に検証した。
論文 参考訳(メタデータ) (2025-10-01T22:21:50Z) - Adaptive Repetition for Mitigating Position Bias in LLM-Based Ranking [12.134014941104613]
候補項目の順序は、モデルの最終的な決定に影響を与える可能性がある。
LLMのプロンプトにおけるアイテム位置に対するこの感度は、位置バイアスとして知られている。
本稿では,各インスタンスに必要な反復回数を適応的に決定する動的早期ストッピング手法を提案する。
論文 参考訳(メタデータ) (2025-07-23T09:54:44Z) - LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming? [88.29001498765629]
大規模言語モデル(LLM)は、競争力のあるプログラミングにおいてエリート人間より優れています。
我々はこの主張を再考し、LLMが人間の専門家とどのように異なるのか、そしてまだ限界が残っているのかを考察する。
私たちは、Codeforces、ICPC、IOIの問題からなるベンチマークであるLiveCodeBench Proを紹介します。
オリンピアードのメダリストのチームはアルゴリズムカテゴリーのあらゆる問題に注釈を付け、失敗したモデル生成の提出をライン・バイ・ラインで分析する。
論文 参考訳(メタデータ) (2025-06-13T16:29:09Z) - GRP: Goal-Reversed Prompting for Zero-Shot Evaluation with LLMs [14.906150451947443]
大きな言語モデル(LLMs)を使用して2つの回答を評価し比較する。
目的逆プロンプティング(GRP)手法を提案し、元のタスクをより良い解から悪い解を選択するようにシフトする。
論文 参考訳(メタデータ) (2025-03-08T09:44:24Z) - Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z) - Style Outweighs Substance: Failure Modes of LLM Judges in Alignment Benchmarking [56.275521022148794]
ポストトレーニング法は、人間のペアワイズ選好とのより良い対応により、優れたアライメントを主張する。
LLM-judgeの好みは、アライメントのためのより具体的なメトリクスの進捗に変換されますか、そうでなければ、なぜそうでないのでしょうか?
その結果,(1) LLM-judge の嗜好は,安全性,世界知識,指導の具体的な尺度と相関せず,(2) LLM-judge の暗黙バイアスが強く,事実性や安全性よりもスタイルを優先し,(3) POステージではなく,訓練後の微調整段階がアライメントに最も影響していることが判明した。
論文 参考訳(メタデータ) (2024-09-23T17:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。