Fugu-MT 論文翻訳(概要): Goedel-Prover: A Frontier Model for Open-Source Automated Theorem Proving

論文の概要: Goedel-Prover: A Frontier Model for Open-Source Automated Theorem Proving

arxiv url: http://arxiv.org/abs/2502.07640v3
Date: Sat, 19 Apr 2025 13:53:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-22 17:11:52.668172
Title: Goedel-Prover: A Frontier Model for Open-Source Automated Theorem Proving
Title（参考訳）: Goedel-Prover: オープンソース自動定理証明のフロンティアモデル
Authors: Yong Lin, Shange Tang, Bohan Lyu, Jiayun Wu, Hongzhou Lin, Kaiyu Yang, Jia Li, Mengzhou Xia, Danqi Chen, Sanjeev Arora, Chi Jin,
Abstract要約: 我々は,2025年4月5日現在,数学問題の自動証明生成における最先端(最先端)性能を実現する,オープンソースの言語モデルであるGoedel-Proverを紹介した。まず、自然言語の数学問題をNuminaデータセットからLean 4で等価な形式ステートメントに変換するためにLLMをトレーニングします。次に,一連のプロデューサをトレーニングすることで,形式証明の大規模なデータセットを開発する。最後に、Goedel-Pset-v1-solvedというデータセットを取得し、Goedel-Pset-v1から800K以上のステートメントの証明を含む。
参考スコア（独自算出の注目度）: 72.8626512877667
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: We introduce Goedel-Prover, an open-source language model that achieves state-of-the-art (as of April 5 2025) performance in automated formal proof generation for mathematical problems. A key challenge in this field is the scarcity of formalized mathematical statements and proofs, which we address through the following approaches. First, we train LLMs to convert natural language math problems from the Numina dataset to equivalent formal statements in Lean 4. This process creates the dataset Goedel-Pset-v1, which includes 1.64 million formal statements. Next, we develop a large dataset of formal proofs by training a series of provers. Each new prover can prove many statements that previous ones could not, and these new proofs are added to the training set for the next prover. Finally, we obtain the dataset Goedel-Pset-v1-solved, which contains proofs for over 800K statements from Goedel-Pset-v1. Supervised fine-tuning (SFT) of DeepSeek-Prover-V1.5-Base on Goedel-Pset-v1-solved (i.e., no RL) yields a Goedel-Prover-SFT that achieves a success rate of 57.6% (Pass@32) on miniF2F, surpassing the previous leader DeepSeek-Prover-V1.5-RL (trained using SFT + RL on a proprietary dataset) by 7.6%. On PutnamBench, Goedel-Prover-SFT successfully solves 7 problems (Pass@512), ranking first on the leaderboard. We provide extensive discussion of our training methodology, highlighting the key design choices that contribute to Goedel-Prover's strong performance. Further RL training (including DPO) improves Goedel-Prover-SFT's success rate to over 60% (Pass@32) on miniF2F. To aid future research, we provide extensive discussion of our training methodology and design choices. We also fully open-source our codes, models, and datasets. Additionally, we open-source formal proofs for 29.7K problems in Lean Workbook, nearly doubling the 15.7K solved by prior provers.
Abstract（参考訳）: 我々は,2025年4月5日現在,数学問題の自動証明生成における最先端(最先端)性能を実現する,オープンソースの言語モデルであるGoedel-Proverを紹介した。この分野での重要な課題は、形式化された数学的ステートメントや証明が不足していることであり、これは以下のアプローチによって解決される。まず、自然言語の数学問題をNuminaデータセットからLean 4で等価な形式ステートメントに変換するためにLLMをトレーニングします。このプロセスはGoedel-Pset-v1というデータセットを生成する。次に,一連のプロデューサをトレーニングすることで,形式証明の大規模なデータセットを開発する。それぞれの新しい証明者は、以前の証明ができなかった多くの主張を証明でき、これらの新しい証明は次の証明者のためのトレーニングセットに追加される。最後に、Goedel-Pset-v1から800K以上のステートメントの証明を含むGoedel-Pset-v1-solvedデータセットを得る。 DeepSeek-Prover-V1.5-Base on Goedel-Pset-v1-solved (すなわち、RLが存在しない) の監督された微調整 (SFT) は、以前のDeepSeek-Prover-V1.5-RL(プロプライエタリなデータセットでSFT + RLを使用してトレーニングされた)を7.6%上回る57.6%(Pass@32)の成功率を達成するGoedel-Prover-SFTを得る。 PutnamBenchでは、Goedel-Prover-SFTが7つの問題を解決することに成功した(Pass@512)。我々は、Goedel-Proverの強力なパフォーマンスに寄与する重要な設計選択を強調しながら、トレーニング方法論に関する広範な議論を行っている。さらなるRLトレーニング(DPOを含む)は、goedel-Prover-SFTの成功率を miniF2F 上で60%以上(Pass@32)に向上させる。今後の研究を支援するため、トレーニング方法論と設計選択について広範囲に議論する。また、コード、モデル、データセットを完全にオープンソースにしています。さらに、Lean Workbookの29.7K問題に対する公式な証明をオープンソースで公開しています。

関連論文リスト

Goedel-Prover-V2: Scaling Formal Theorem Proving with Scaffolded Data Synthesis and Self-Correction [95.91743732150233]
一連のオープンソースの言語モデルであるGoedel-Prover-V2は、自動定理の新たな最先端を証明した。我々は、より複雑な定理をマスターするためにモデルを訓練することの困難さを増す合成タスクを生成する。 Goedel-Prover-V2-32Bは、標準モードのpass@32でMiniF2Fの88.1%、自己補正モードの90.4%を達成する。
論文参考訳（メタデータ） (2025-08-05T16:28:22Z)
REAL-Prover: Retrieval Augmented Lean Prover for Mathematical Reasoning [12.343823629674368]
私たちはREAL-Proverという,Lean 4.0用の新たなオープンソースステップワイドな定理証明ツールを紹介します。我々の証明者は、特に大学レベルの数学問題の解法における性能を高める。実験では、教師付き微チューン定理のみを用いた証明器は23.7%の成功率で競合する結果が得られる。
論文参考訳（メタデータ） (2025-05-27T01:26:11Z)
Leanabell-Prover: Posttraining Scaling in Formal Reasoning [26.534511088861446]
本稿では, 自然言語の推論モデルにおけるブレークスルーと整合性を持たせることを目的として, ATPのポストトレーニング全体について検討する。我々は,DeepSeek-Prover-v1.5やGoedel-Proverなど,既存のフォーマルプロバーの改良に成功した。
論文参考訳（メタデータ） (2025-04-08T15:15:26Z)
Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。 OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文参考訳（メタデータ） (2025-02-10T18:57:29Z)
STP: Self-play LLM Theorem Provers with Iterative Conjecturing and Proving [33.61458249318183]
セルフプレイ・セオレム・プロバー(STP)は、予想と証明という2つの役割を担っている。 STPは同時に、予想と証明という2つの役割を担っている。私たちはLeanとIsabelleの2つの形式的検証ツールで評価します。
論文参考訳（メタデータ） (2025-01-31T23:01:48Z)
ProofAug: Efficient Neural Theorem Proving via Fine-grained Proof Structure Analysis [50.020850767257095]
本稿では,LLMに様々な粒度で自動化手法を付加するProofAugを提案する。本手法は,オープンソースのDeep-math-7bベースモデルとIsabelle証明アシスタントを用いて,MiniF2Fベンチマークで検証した。また、ProofAugのLean 4バージョンを実装し、Kimina-Prover-seek-Distill-1.5Bのパス@1のパフォーマンスを44.3%から50.4%に改善します。
論文参考訳（メタデータ） (2025-01-30T12:37:06Z)
InternLM2.5-StepProver: Advancing Automated Theorem Proving via Expert Iteration on Large-Scale LEAN Problems [47.93470713879515]
InternLM2.5-SteperはMiniF2F、Lean-Workbook-Plus、ProofNet、Patnamベンチマークのオープンソースステート・オブ・ザ・アートを実現している。 MiniF2Fテストでは65.9%をパスし、Lean-Workbook-Plusの17.0%の問題を証明(あるいは否定)している。
論文参考訳（メタデータ） (2024-10-21T07:18:23Z)
Proof Automation with Large Language Models [6.587933406842906]
大規模言語モデル(LLM)は、自然言語で非公式な証明を自動的に生成する可能性を示している。本稿では,まず LLM に初期証明を生成することを促し,次に目標とする記号法を利用して低レベルの問題を反復的に修復する,新しい生成・修復手法である PALM を提案する。その結果、PALMは他の最先端の手法よりも大幅に優れており、76.6%から180.4%の定理を証明できた。
論文参考訳（メタデータ） (2024-09-22T00:19:27Z)
DeepSeek-Prover: Advancing Theorem Proving in LLMs through Large-Scale Synthetic Data [65.5290035371111]
本稿では,高校・学部レベルの数学競争問題から得られたリーン4証明データを生成する手法を提案する。この合成データセットでDeepSeekMath 7Bモデルを微調整します。我々のモデルは、Lean 4 Formalized International Mathematical Olympiad (FIMO)ベンチマークで148の問題を5つ証明しましたが、GPT-4は証明できませんでした。
論文参考訳（メタデータ） (2024-05-23T09:03:42Z)
MUSTARD: Mastering Uniform Synthesis of Theorem and Proof Data [85.50740598523818]
MUSTARDは、高品質で多様性のある定理と証明データの均一な合成をマスターするフレームワークである。 5,866個の有効なデータポイントを持つMUSTARDSAUCEベンチマークを示す。我々は広範囲な解析を行い、MUSTARDが検証された高品質なステップバイステップデータを生成することを示す。
論文参考訳（メタデータ） (2024-02-14T05:57:58Z)
Baldur: Whole-Proof Generation and Repair with Large Language Models [8.100054850290507]
我々は、自然言語のテキストとコードに基づいて訓練され、証明について微調整された大きな言語モデルを使用して、一度に定理のすべての証明を生成する。我々は、この証明生成モデルと微調整の補修モデルを組み合わせて、生成した証明を修復し、さらに証明力を増強する。本手法をプロトタイプであるBaldurで評価し、6,336 Isabelle/HOL定理とその証明のベンチマークで評価する。
論文参考訳（メタデータ） (2023-03-08T22:00:15Z)
PRover: Proof Generation for Interpretable Reasoning over Rules [81.40404921232192]
本稿では,ルールベース上の二項質問に応答し,対応する証明を生成するトランスフォーマーモデルを提案する。本モデルは,効率的な制約付き学習パラダイムを用いて,証明グラフに対応するノードやエッジを予測できることを学習する。我々は、QAと証明生成のための有望な結果を示すために、合成、手書き、人文による規則ベースの実験を行う。
論文参考訳（メタデータ） (2020-10-06T15:47:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。