Fugu-MT 論文翻訳(概要): DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning

論文の概要: DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning

arxiv url: http://arxiv.org/abs/2511.22570v1
Date: Thu, 27 Nov 2025 16:01:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-01 19:47:55.63065
Title: DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning
Title（参考訳）: DeepSeekMath-V2: 自己検証可能な数学的推論を目指して
Authors: Zhihong Shao, Yuxiang Luo, Chengda Lu, Z. Z. Ren, Jiewen Hu, Tian Ye, Zhibin Gou, Shirong Ma, Xiaokang Zhang,
Abstract要約: 正しい答えは正しい推論を保証するものではない。深い推論の限界を推し進めるためには、数学的推論の包括性と厳密さを検証する必要があると信じている。我々のモデルであるDeepSeekMath-V2は、IMO 2025とCMO 2024のゴールドレベルスコア、Patnam 2024のほぼ完璧な118/120のスケールされたテストタイム計算を達成し、強力な定理証明能力を示す。
参考スコア（独自算出の注目度）: 26.142347272743496
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models have made significant progress in mathematical reasoning, which serves as an important testbed for AI and could impact scientific research if further advanced. By scaling reasoning with reinforcement learning that rewards correct final answers, LLMs have improved from poor performance to saturating quantitative reasoning competitions like AIME and HMMT in one year. However, this approach faces fundamental limitations. Pursuing higher final answer accuracy doesn't address a key issue: correct answers don't guarantee correct reasoning. Moreover, many mathematical tasks like theorem proving require rigorous step-by-step derivation rather than numerical answers, making final answer rewards inapplicable. To push the limits of deep reasoning, we believe it is necessary to verify the comprehensiveness and rigor of mathematical reasoning. Self-verification is particularly important for scaling test-time compute, especially for open problems without known solutions. Towards self-verifiable mathematical reasoning, we investigate how to train an accurate and faithful LLM-based verifier for theorem proving. We then train a proof generator using the verifier as the reward model, and incentivize the generator to identify and resolve as many issues as possible in their own proofs before finalizing them. To maintain the generation-verification gap as the generator becomes stronger, we propose to scale verification compute to automatically label new hard-to-verify proofs, creating training data to further improve the verifier. Our resulting model, DeepSeekMath-V2, demonstrates strong theorem-proving capabilities, achieving gold-level scores on IMO 2025 and CMO 2024 and a near-perfect 118/120 on Putnam 2024 with scaled test-time compute.
Abstract（参考訳）: 大規模な言語モデルは、AIの重要なテストベッドとして機能し、さらに進歩すれば科学研究に影響を与える可能性がある数学的推論において大きな進歩を遂げた。最終回答を正す強化学習による推論をスケールすることにより、LCMはパフォーマンスの低下から、AIMEやHMMTのような定量的推論競争を1年で飽和させるまで改善した。しかし、このアプローチは基本的な制限に直面している。正しい答えは正しい推論を保証するものではない。さらに、定理証明のような数学的なタスクの多くは、数値的な答えよりも厳密なステップバイステップの導出を必要とし、最終的な答えの報酬は適用できない。深い推論の限界を推し進めるためには、数学的推論の包括性と厳密さを検証する必要があると信じている。自己検証は、テスト時間計算のスケーリング、特に既知のソリューションのないオープンな問題において特に重要である。自己検証可能な数学的推論に向けて、定理証明のための正確で忠実なLCMベースの検証器の訓練方法を検討する。次に、検証器を報酬モデルとして用いて証明生成器を訓練し、検証器を確定する前に可能な限り多くの問題を特定し、解決するインセンティブを与える。生成元がより強くなるにつれて、生成元検証のギャップを保ちながら、検証計算をスケールして新しい検証証明を自動的にラベル付けし、検証をさらに改善するためのトレーニングデータを作成することを提案する。得られたモデルであるDeepSeekMath-V2は、IMO 2025とCMO 2024のゴールドレベルスコア、Patnam 2024のほぼ完璧な118/120のスケールされたテストタイム計算を達成し、強力な定理証明能力を示す。

関連論文リスト

Proof-RM: A Scalable and Generalizable Reward Model for Math Proof [67.53066972145183]
大規模言語モデル(LLM)は,*検証リワード*(RLVR)を用いた強化学習を通じて,強力な数学推論能力を示した。多くの先進的な数学的問題は証明ベースであり、単純な解マッチングによって証明の真性を決定するための保証された方法はない。自動検証を実現するには、完全な証明プロセスを確実に評価できるリワードモデル(RM)が必要である。
論文参考訳（メタデータ） (2026-02-02T17:42:53Z)
Scaling Generative Verifiers For Natural Language Mathematical Proof Verification And Selection [42.21636315733425]
大規模言語モデルは、最終解答問題において顕著な成功を収めた。しかし、これらのソリューションの根底にある理由はしばしば欠陥がある。モデル性能のより信頼性の高い尺度を得るために,証明ベースと最終回答推論の両方を評価した。
論文参考訳（メタデータ） (2025-11-17T06:25:35Z)
Hard2Verify: A Step-Level Verification Benchmark for Open-Ended Frontier Math [80.46254366870447]
私たちは500時間以上の人的労力で生成された段階レベルの検証ベンチマークであるHard2Verifyを紹介します。我々は29人の生成的批評家とプロセス報酬モデルを評価し、いくつかの点を超えて、オープンソースの検証者がクローズドソースモデルを評価することを実証した。
論文参考訳（メタデータ） (2025-10-15T16:50:54Z)
Seed-Prover: Deep and Broad Reasoning for Automated Theorem Proving [36.20164235042574]
本研究では,レムマ型全耐久推論モデルである textbfSeed-Prover を提案する。 IMOレベルの競合問題を解決するために、深い推論と広い推論の両方を可能にする3つのテストタイム推論戦略を設計する。シード・プロバーは、過去のIMO問題の78.1%ドルを証明し、ミニF2Fを飽和させ、パットナムベンチで50%以上を達成し、それまでの最先端よりも大きな差を付けた。
論文参考訳（メタデータ） (2025-07-31T17:00:30Z)
Solving Inequality Proofs with Large Language Models [42.667163027148916]
不等式証明は様々な科学・数学分野において不可欠である。これにより、大きな言語モデル(LLM)の需要が高まるフロンティアとなる。我々は、Olympiadレベルの不平等を専門家が計算したデータセットであるIneqMathをリリースした。
論文参考訳（メタデータ） (2025-06-09T16:43:38Z)
Let's Verify Math Questions Step by Step [29.69769942300042]
MathQ-Verifyは、未定または未定の数学問題を厳格にフィルタリングするために設計された、新しいパイプラインである。 MathQ-Verifyはまず、冗長な命令を削除するためのフォーマットレベルのバリデーションを実行する。その後、各質問を形式化し、それを原子状態に分解し、数学的定義に対して検証する。
論文参考訳（メタデータ） (2025-05-20T04:07:29Z)
DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning [95.31714779585272]
DeepMath-103Kは、高い難易度(主に5-9レベル)で設計された大規模な数学的データセットであるこれには、多数のベンチマークに対する厳格な除染、ルールベースのRL報酬に対する検証可能な回答が含まれる。 DeepMath-103Kは一般化可能な推論の進展を促進する。
論文参考訳（メタデータ） (2025-04-15T17:59:51Z)
Formal Theorem Proving by Rewarding LLMs to Decompose Proofs Hierarchically [29.908878832382523]
本稿では,自動検証/評価を可能にする形式言語による証明記述能力の向上に焦点をあてる。我々は、定理に直接関係する補題がテスト時の定理証明者に与えられないより自然な設定で作業する。我々は、モデルが定理を補題に分解し、補題を証明し、補題を用いて定理を証明することを奨励するRLベースの訓練アルゴリズムを設計する。
論文参考訳（メタデータ） (2024-11-04T05:57:40Z)
LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-06-20T06:42:27Z)
MUSTARD: Mastering Uniform Synthesis of Theorem and Proof Data [85.50740598523818]
MUSTARDは、高品質で多様性のある定理と証明データの均一な合成をマスターするフレームワークである。 5,866個の有効なデータポイントを持つMUSTARDSAUCEベンチマークを示す。我々は広範囲な解析を行い、MUSTARDが検証された高品質なステップバイステップデータを生成することを示す。
論文参考訳（メタデータ） (2024-02-14T05:57:58Z)
TheoremQA: A Theorem-driven Question Answering dataset [100.39878559382694]
GPT-4のこれらの問題を解決する能力は非並列であり、Program-of-Thoughts Promptingの精度は51%である。 TheoremQAは、350の定理をカバーする800の高品質な質問を含むドメインの専門家によってキュレートされる。
論文参考訳（メタデータ） (2023-05-21T17:51:35Z)
PRover: Proof Generation for Interpretable Reasoning over Rules [81.40404921232192]
本稿では,ルールベース上の二項質問に応答し,対応する証明を生成するトランスフォーマーモデルを提案する。本モデルは,効率的な制約付き学習パラダイムを用いて,証明グラフに対応するノードやエッジを予測できることを学習する。我々は、QAと証明生成のための有望な結果を示すために、合成、手書き、人文による規則ベースの実験を行う。
論文参考訳（メタデータ） (2020-10-06T15:47:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。