Fugu-MT 論文翻訳(概要): ProofOptimizer: Training Language Models to Simplify Proofs without Human Demonstrations

論文の概要: ProofOptimizer: Training Language Models to Simplify Proofs without Human Demonstrations

arxiv url: http://arxiv.org/abs/2510.15700v1
Date: Fri, 17 Oct 2025 14:45:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-20 20:17:34.66035
Title: ProofOptimizer: Training Language Models to Simplify Proofs without Human Demonstrations
Title（参考訳）: ProofOptimizer:人間の指示なしに証明をシンプルにするための言語モデルを訓練する
Authors: Alex Gu, Bartosz Piotrowski, Fabian Gloeckle, Kaiyu Yang, Aram H. Markosyan,
Abstract要約: Proofrは、人間の監督を必要とせず、リーンの証明を単純化するために訓練された最初の言語モデルです。 Provrは専門家の反復と強化学習を通じてトレーニングされ、リーンを使って単純化の検証とトレーニング信号を提供する。 Provrは、最先端のRL訓練プローバーが標準ベンチマークで生成した証明を実質的に圧縮する。
参考スコア（独自算出の注目度）: 14.748476989228214
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Neural theorem proving has advanced rapidly in the past year, reaching IMO gold-medalist capabilities and producing formal proofs that span thousands of lines. Although such proofs are mechanically verified by formal systems like Lean, their excessive length renders them difficult for humans to comprehend and limits their usefulness for mathematical insight. Proof simplification is therefore a critical bottleneck. Yet, training data for this task is scarce, and existing methods -- mainly agentic scaffolding with off-the-shelf LLMs -- struggle with the extremely long proofs generated by RL-trained provers. We introduce ProofOptimizer, the first language model trained to simplify Lean proofs without requiring additional human supervision. ProofOptimizer is trained via expert iteration and reinforcement learning, using Lean to verify simplifications and provide training signal. At inference time, it operates within an iterative proof-shortening workflow, progressively reducing proof length. Experiments show that ProofOptimizer substantially compresses proofs generated by state-of-the-art RL-trained provers on standard benchmarks, reducing proof length by 87% on miniF2F, 57% on PutnamBench, and 49% on Seed-Prover's IMO 2025 proofs. Beyond conciseness, the simplified proofs check faster in Lean and further improve downstream prover performance when reused as training data for supervised finetuning.
Abstract（参考訳）: ニューラル定理の証明は、過去1年間に急速に進歩し、IMOゴールドメダリストの能力に到達し、数千行に及ぶ公式な証明を生み出した。このような証明は、Leanのような形式的なシステムによって機械的に検証されているが、その過剰な長さは、人間が数学的洞察のために有用性を理解し、制限することを困難にしている。したがって、証明の単純化は重要なボトルネックである。しかし、このタスクのトレーニングデータは乏しく、既存の手法(主に既成のLLMを持つエージェント的な足場)は、RL訓練プローバーが生成する極めて長い証明と競合する。 ProofOptimizerを紹介します。これは、人間の監督を必要とせず、リーンの証明を単純化するために訓練された最初の言語モデルです。 ProofOptimizerは、専門家の反復と強化学習を通じてトレーニングされ、リーンを使用して単純化の検証とトレーニング信号を提供する。推論時に反復的な証明ショートニングワークフロー内で動作し、証明の長さを徐々に削減する。実験の結果、ProofOptimizerは標準ベンチマークで最先端のRL訓練プロバーによって生成された証明を実質的に圧縮し、miniF2Fでは87%、PatnamBenchでは57%、Seed-Proverでは49%の証明を削減した。簡潔さの他に、単純化された証明はリーンでより高速にチェックし、教師付き微調整のためのトレーニングデータとして再利用された場合、下流の証明器のパフォーマンスをさらに向上する。

論文の概要: ProofOptimizer: Training Language Models to Simplify Proofs without Human Demonstrations

関連論文リスト