Fugu-MT 論文翻訳(概要): Lean Copilot: Large Language Models as Copilots for Theorem Proving in Lean

論文の概要: Lean Copilot: Large Language Models as Copilots for Theorem Proving in Lean

arxiv url: http://arxiv.org/abs/2404.12534v2
Date: Sun, 02 Mar 2025 20:13:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-04 17:04:19.216067
Title: Lean Copilot: Large Language Models as Copilots for Theorem Proving in Lean
Title（参考訳）: Lean Copilot: リーンにおける理論実証のためのコパイロットとしての大規模言語モデル
Authors: Peiyang Song, Kaiyu Yang, Anima Anandkumar,
Abstract要約: リーンでLLM推論を実行するためのフレームワークであるLean Copilotを紹介します。証明のステップを提案し、証明の目標を完了し、関連する前提を選択するツールを構築します。人間を助ける場合、Lean Copilotは平均3.86で手動で入力された証明ステップを2.08ステップしか必要としない。定理証明プロセスを自動化する場合、Lean Copilotの74.2%の証明ステップは平均85%がエソップ(40.1%)より優れている。
参考スコア（独自算出の注目度）: 81.94024084598598
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Neural theorem proving combines large language models (LLMs) with proof assistants such as Lean, where the correctness of formal proofs can be rigorously verified, leaving no room for hallucination. With existing neural theorem provers pretrained on a fixed collection of data and offering valuable suggestions at times, it is challenging for them to continually prove novel theorems in a fully autonomous mode, where human insights may be critical. In this paper, we explore LLMs as copilots that assist humans in proving theorems. We introduce Lean Copilot, an general framework for running LLM inference natively in Lean. It enables programmers to build various LLM-based proof automation tools that integrate seamlessly into the workflow of Lean users. Lean users can use our pretrained models or bring their own ones that run either locally (with or without GPUs) or on the cloud. Using Lean Copilot, we build LLM-based tools that suggest proof steps, complete proof goals, and select relevant premises. Experimental results on the Mathematics in Lean textbook demonstrate the effectiveness of our method compared to existing rule-based proof automation in Lean (aesop). When assisting humans, Lean Copilot requires only 2.08 manually-entered proof steps on average (3.86 required by aesop); when automating the theorem proving process, Lean Copilot automates 74.2% proof steps on average, 85% better than aesop (40.1%). We open source all code and artifacts under a permissive MIT license to facilitate further research.
Abstract（参考訳）: ニューラル定理証明は、大きな言語モデル(LLM)とリーンのような証明アシスタントを組み合わせることで、形式的証明の正しさを厳格に検証することができ、幻覚の余地は残っていない。既存のニューラル定理は、固定されたデータの収集に基づいて事前訓練され、時には貴重な提案を提供するため、人間の洞察が重要かもしれない完全自律的なモードで新しい定理を継続的に証明することは困難である。本稿では,LLMを人間による定理証明を支援するコピロとして探索する。リーンでLLM推論をネイティブに実行する一般的なフレームワークであるLean Copilotを紹介します。プログラマは、リーンユーザのワークフローにシームレスに統合する、さまざまなLCMベースの証明自動化ツールを構築できる。リーンユーザは、トレーニング済みのモデルを使用したり、(GPUの有無に関わらず)ローカルまたはクラウド上で実行される独自のモデルを持ち込むことができます。 Lean Copilotを使用することで、証明ステップの提案、証明の目標の完了、関連する前提の選択など、LCMベースのツールを構築します。リーン教科書における数学の実験結果は、リーンの既存のルールベースの証明自動化(aesop)と比較して、我々の手法の有効性を実証している。定理証明プロセスを自動化する場合には、Lean Copilotは平均74.2%の証明ステップを自動化し、平均85%がesop(40.1%)より優れている。我々はMITライセンス下ですべてのコードとアーティファクトをオープンソース化し、さらなる研究を促進する。

関連論文リスト

HybridProver: Augmenting Theorem Proving with LLM-Driven Proof Synthesis and Refinement [7.702809989052384]
HybridProverは、戦術ベースの生成と全防御合成を組み合わせたデュアルモデル証明フレームワークである。最適化されたデータセット上にIsabelle定理証明器とファインチューンLPMにHybridProverを実装した。
論文参考訳（メタデータ） (2025-05-21T16:45:43Z)
APOLLO: Automated LLM and Lean Collaboration for Advanced Formal Reasoning [8.056359341994941]
APOLLOは、Leanコンパイラの強みとLLMの推論能力を組み合わせた、モデルに依存しないパイプラインである。エージェントのセットが証明を分析し、シンタックスのエラーを修正し、リーンを使って証明の誤りを特定します。修理されたサブステイストは再結合され、再検証され、ユーザ制御された最大試行回数まで反復される。
論文参考訳（メタデータ） (2025-05-09T03:38:31Z)
Neural Theorem Proving: Generating and Structuring Proofs for Formal Verification [0.4779196219827508]
組込み戦術の力と既製の自動定理プローバーを利用するシステム内で使用される形式言語で全ての証明を生成するフレームワークを導入する。 LLMのトレーニングには2段階の微調整プロセスを使用し、まずSFTベースのトレーニングを使用して、モデルが構文的に正しいIsabelleコードを生成する。我々は,MiniF2F-testベンチマークとIsabelle証明アシスタントを用いてフレームワークを検証し,S3バケットアクセスポリシーコードの正当性を検証するためのユースケースを設計する。
論文参考訳（メタデータ） (2025-04-23T18:04:38Z)
LeanProgress: Guiding Search for Neural Theorem Proving via Proof Progress Prediction [74.79306773878955]
証明の進捗を予測する手法であるLeanProgressを紹介します。実験の結果、LeanProgressは全体の予測精度が75.1%に達することがわかった。
論文参考訳（メタデータ） (2025-02-25T07:46:36Z)
Generating Millions Of Lean Theorems With Proofs By Exploring State Transition Graphs [6.65877320351217]
我々はLeanNavigatorを開発した。これはリーンの定理と証明の大規模なデータセットを生成する新しい方法だ。我々は10億のトークンを合計470万の定理で生成し、以前のデータセットを桁違いに上回った。この広範なデータセットを使用して、我々は、定理証明タスクにおいて最先端のReProverモデルより優れたAIモデルを訓練した。
論文参考訳（メタデータ） (2025-02-16T06:20:39Z)
Efficient Neural Theorem Proving via Fine-grained Proof Structure Analysis [50.020850767257095]
本稿では,より優れたサンプル効率を有する定理証明手法であるProofAugを提案する。本手法は,オープンソースのDeepseek-math-7bベースモデルとIsabelle証明アシスタントを用いて,miniF2F-testベンチマークで検証した。
論文参考訳（メタデータ） (2025-01-30T12:37:06Z)
InternLM2.5-StepProver: Advancing Automated Theorem Proving via Expert Iteration on Large-Scale LEAN Problems [47.93470713879515]
InternLM2.5-SteperはMiniF2F、Lean-Workbook-Plus、ProofNet、Patnamベンチマークのオープンソースステート・オブ・ザ・アートを実現している。 MiniF2Fテストでは65.9%をパスし、Lean-Workbook-Plusの17.0%の問題を証明(あるいは否定)している。
論文参考訳（メタデータ） (2024-10-21T07:18:23Z)
zsLLMCode: An Effective Approach for Functional Code Embedding via LLM with Zero-Shot Learning [6.976968804436321]
大型言語モデル(LLM)はゼロショット学習の能力を持ち、訓練や微調整を必要としない。 LLMを用いた関数型コード埋め込みを生成する新しいアプローチであるzsLLMCodeを提案する。
論文参考訳（メタデータ） (2024-09-23T01:03:15Z)
Proof Automation with Large Language Models [6.587933406842906]
大規模言語モデル(LLM)は、自然言語で非公式な証明を自動的に生成する可能性を示している。本稿では,まず LLM に初期証明を生成することを促し,次に目標とする記号法を利用して低レベルの問題を反復的に修復する,新しい生成・修復手法である PALM を提案する。その結果、PALMは他の最先端の手法よりも大幅に優れており、76.6%から180.4%の定理を証明できた。
論文参考訳（メタデータ） (2024-09-22T00:19:27Z)
Lean-STaR: Learning to Interleave Thinking and Proving [53.923617816215774]
証明の各ステップに先立って,非公式な思考を生成するために,言語モデルをトレーニングするフレームワークであるLean-STaRを紹介します。 Lean-STaRは、Lean定理証明環境内のminiF2F-testベンチマークで最先端の結果を達成する。
論文参考訳（メタデータ） (2024-07-14T01:43:07Z)
TheoremLlama: Transforming General-Purpose LLMs into Lean4 Experts [26.98890165420689]
TheoremLlamaは、汎用的なLean4エキスパートをトレーニングするエンドツーエンドフレームワークである。我々のフレームワークは,MiniF2F-ValidデータセットとTestデータセットでそれぞれ36.48%,33.61%の累積精度を達成した。
論文参考訳（メタデータ） (2024-07-03T15:36:18Z)
Efficient Tool Use with Chain-of-Abstraction Reasoning [65.18096363216574]
大規模言語モデル(LLM)は、現実世界の知識に対する推論の基礎となる必要がある。マルチステップ推論問題におけるツールの実行には,微調整LDMエージェントの課題が残されている。マルチステップ推論におけるツールの活用方法として, LLM の新しい手法を提案する。
論文参考訳（メタデータ） (2024-01-30T21:53:30Z)
Enhancing Neural Theorem Proving through Data Augmentation and Dynamic Sampling Method [1.8130068086063336]
本稿では,定理証明のための新しい動的サンプリング手法であるDS-Proverを紹介する。単純化と書き直しの戦術を複数の前提で1つの前提で戦術に分解することで、トレーニングデータセットを強化します。 ProofNetデータセットでは14.2%の最先端パフォーマンス(Pass@1)、MiniF2Fでは29.8%のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2023-12-20T09:55:21Z)
Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。 LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。 LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文参考訳（メタデータ） (2023-10-15T12:40:30Z)
LeanDojo: Theorem Proving with Retrieval-Augmented Language Models [72.54339382005732]
大規模言語モデル(LLM)は、Leanのような証明アシスタントを使って形式的な定理を証明することを約束している。既存のメソッドは、プライベートコード、データ、計算要求のために、複製や構築が難しい。本稿では、ツールキット、データ、モデルからなるオープンソースのリーンツールキットであるLeanDojoを紹介します。本研究では,LLM ベースの証明器 ReProver を開発した。
論文参考訳（メタデータ） (2023-06-27T17:05:32Z)
Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文参考訳（メタデータ） (2023-05-24T01:46:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。