論文の概要: Escaping the Cognitive Well: Efficient Competition Math with Off-the-Shelf Models
- arxiv url: http://arxiv.org/abs/2602.16793v1
- Date: Wed, 18 Feb 2026 19:00:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.29444
- Title: Escaping the Cognitive Well: Efficient Competition Math with Off-the-Shelf Models
- Title(参考訳): 認知井戸の脱出:オフザシェルフモデルを用いた効率的な競合数学
- Authors: Xingyu Dang, Rohit Agarwal, Rodrigo Porto, Anirudh Goyal, Liam H Fowl, Sanjeev Arora,
- Abstract要約: IMOスタイルの数学問題に対して,競合する手法よりも平均的な推論コストのオーダーで,クラス内で最高の性能が得られる推論パイプラインを提案する。
私たちのパイプラインは、Gemini 3.0 Proを使用して67.1%のパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 38.940867141721355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the past year, custom and unreleased math reasoning models reached gold medal performance on the International Mathematical Olympiad (IMO). Similar performance was then reported using large-scale inference on publicly available models but at prohibitive costs (e.g., 3000 USD per problem). In this work, we present an inference pipeline that attains best-in-class performance on IMO-style math problems at an average inference cost orders of magnitude below competing methods while using only general-purpose off-the-shelf models. Our method relies on insights about grader failure in solver-grader pipelines, which we call the Cognitive Well (iterative refinement converging to a wrong solution that the solver as well as the pipeline's internal grader consider to be basically correct). Our pipeline addresses these failure modes through conjecture extraction, wherein candidate lemmas are isolated from generated solutions and independently verified alongside their negations in a fresh environment (context detachment). On IMO-ProofBench Advanced (PB-Adv), our pipeline achieves 67.1 percent performance using Gemini 3.0 Pro with an average cost per question of approximately 31 USD. At the time of evaluation, this represented the state-of-the-art on PB-Adv among both public and unreleased models, and more than doubles the success rate of the next best publicly accessible pipeline, all at a fraction of the cost.
- Abstract(参考訳): 国際数学オリンピック(IMO、International Mathematical Olympiad)は、国際数学オリンピック(IMO)で金メダルを獲得した。
同様の性能は、一般に利用可能なモデルに対して大規模な推論を用いて報告されたが、禁止コスト(例えば、問題当たり3000USD)で報告された。
本研究では,IMOスタイルの数学問題に対して,汎用オフザシェルフモデルのみを用いながら,競合する手法よりも平均的な推論コストのオーダーで,クラス内での最良の性能を実現する推論パイプラインを提案する。
我々の手法は,分解器グレーダパイプラインのグレーダ障害に関する洞察に依存しており,これをCognitive Wellと呼ぶ(分解器とパイプラインの内部グレーダが基本的に正しいと考える間違った解に収束している)。
我々のパイプラインは、予測抽出を通じてこれらの障害モードに対処し、候補補題は生成した解から分離され、新しい環境(コンテキスト分離)における否定とともに独立に検証される。
IMO-ProofBench Advanced (PB-Adv)では、Gemini 3.0 Proを使用して67.1%のパフォーマンスを実現しています。
評価の時点では、PB-Advはパブリックモデルと未リリースモデルの両方で最先端であり、すべてコストのごく一部で次の最高の公開パイプラインの成功率の2倍以上である。
関連論文リスト
- LLMs Encode Their Failures: Predicting Success from Pre-Generation Activations [5.275682987885503]
我々は,前世代のアクティベーションに関する線形プローブを訓練し,数学やコーディングタスクにおける政策固有の成功を予測する。
モデルが人間の難易度とは異なる難易度のモデル固有の概念を符号化していることを示す。
モデルプールをまたいでクエリをルーティングすることは、最高のパフォーマンスモデルを超えることができることを実証する。
論文 参考訳(メタデータ) (2026-02-10T15:57:00Z) - On the Power of (Approximate) Reward Models for Inference-Time Scaling [3.540245474029962]
推論時間スケーリングは、大規模言語モデルの推論能力を改善するための強力なパラダイムとして登場した。
すべてのデプロイされたシステムは、近似的な報酬モデルに依存しており、根本的な疑問を提起している。
近似報酬モデルのベルマン誤差を,SMCに基づく推定時間スケーリングの有効性を規定する鍵となる量として同定する。
論文 参考訳(メタデータ) (2026-02-01T18:28:42Z) - Self-Ensembling Gaussian Splatting for Few-Shot Novel View Synthesis [55.561961365113554]
3D Gaussian Splatting (3DGS) は新規ビュー合成(NVS)において顕著な効果を示した
本稿では,Self-Ensembling Gaussian Splatting(SE-GS)を紹介する。
我々は,トレーニング中に不確実性を認識した摂動戦略を導入することで,自己理解を実現する。
LLFF, Mip-NeRF360, DTU, MVImgNetデータセットによる実験結果から, 本手法がNVSの品質を向上させることを示す。
論文 参考訳(メタデータ) (2024-10-31T18:43:48Z) - Sample-efficient Learning of Infinite-horizon Average-reward MDPs with General Function Approximation [53.17668583030862]
一般関数近似の文脈において,無限水平平均逆マルコフ決定過程(AMDP)について検討する。
最適化最適化(LOOP)と呼ばれる新しいアルゴリズムフレームワークを提案する。
我々は LOOP がサブ線形 $tildemathcalO(mathrmpoly(d, mathrmsp(V*)) sqrtTbeta )$ regret を達成することを示す。
論文 参考訳(メタデータ) (2024-04-19T06:24:22Z) - DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。
まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。
特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z) - Contextual Decision-Making with Knapsacks Beyond the Worst Case [5.65888994172721]
資源制約を伴う動的意思決定シナリオの枠組みについて検討する。
このフレームワークでは、エージェントがランダムな要求を観察すると、各ラウンドでアクションを選択する。
我々のアルゴリズムは最悪の場合であっても、ほぼ最適の$widetildeO(sqrtT)$ regretを維持していることを証明している。
論文 参考訳(メタデータ) (2022-11-25T08:21:50Z) - A Huber loss-based super learner with applications to healthcare
expenditures [0.0]
本稿では,2乗誤差損失と絶対損失とを結合した「ロバスト」損失関数であるHuber損失に基づく超学習者を提案する。
提案手法は,ハマーリスクの最適化だけでなく,有限サンプル設定でも直接利用できることを示す。
論文 参考訳(メタデータ) (2022-05-13T19:57:50Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。
目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。
ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文 参考訳(メタデータ) (2021-02-13T12:57:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。