論文の概要: ImProver: Agent-Based Automated Proof Optimization
- arxiv url: http://arxiv.org/abs/2410.04753v1
- Date: Mon, 7 Oct 2024 05:14:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 02:07:46.539625
- Title: ImProver: Agent-Based Automated Proof Optimization
- Title(参考訳): ImProver: エージェントベースの自動証明最適化
- Authors: Riyaz Ahuja, Jeremy Avigad, Prasad Tetali, Sean Welleck,
- Abstract要約: リーンの任意のユーザ定義メトリクスを最適化するために、証明を書き換える大規模な言語モデルエージェントであるImProverを紹介します。
我々は、現実世界の学部生、競争、研究レベルの数学定理の書き換えについてImProverをテストする。
- 参考スコア(独自算出の注目度): 18.315243539816464
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) have been used to generate formal proofs of mathematical theorems in proofs assistants such as Lean. However, we often want to optimize a formal proof with respect to various criteria, depending on its downstream use. For example, we may want a proof to adhere to a certain style, or to be readable, concise, or modularly structured. Having suitably optimized proofs is also important for learning tasks, especially since human-written proofs may not optimal for that purpose. To this end, we study a new problem of automated proof optimization: rewriting a proof so that it is correct and optimizes for an arbitrary criterion, such as length or readability. As a first method for automated proof optimization, we present ImProver, a large-language-model agent that rewrites proofs to optimize arbitrary user-defined metrics in Lean. We find that naively applying LLMs to proof optimization falls short, and we incorporate various improvements into ImProver, such as the use of symbolic Lean context in a novel Chain-of-States technique, as well as error-correction and retrieval. We test ImProver on rewriting real-world undergraduate, competition, and research-level mathematics theorems, finding that ImProver is capable of rewriting proofs so that they are substantially shorter, more modular, and more readable.
- Abstract(参考訳): 大規模言語モデル (LLMs) は、リーンのような証明アシスタントで数学的定理の形式的証明を生成するために使われてきた。
しかし、ダウンストリームの使用によっては、様々な基準に関して形式的な証明を最適化したい場合が多い。
例えば、あるスタイルに固執する、あるいは読みやすく、簡潔で、モジュール的に構造化された証明が欲しいかもしれません。
適切に最適化された証明を持つことは、特に人間による証明がその目的に最適でないため、学習タスクにおいても重要である。
そこで本研究では,自動証明最適化の新たな課題として,正しい証明を書き換え,長さや可読性などの任意の基準に最適化する手法を提案する。
自動証明最適化の第一の方法として、リーンの任意のユーザ定義メトリクスを最適化するために証明を書き換える大規模な言語モデルエージェントであるImProverを紹介します。
また,新しいChain-of-States手法における象徴的リーンコンテキストの利用,エラー訂正と検索など,ImProverに様々な改良を加えている。
我々はImProverを現実世界の学部生、競争者、研究レベルの数学の定理の書き換えでテストし、ImProverは証明を書き換える能力があり、より短く、よりモジュール化され、より可読性が高いことを発見した。
関連論文リスト
- How To Discover Short, Shorter, and the Shortest Proofs of Unsatisfiability: A Branch-and-Bound Approach for Resolution Proof Length Minimization [1.4796543791607086]
本稿では,最短解法を見つけるための分岐結合アルゴリズムを提案する。
この表現はすべての置換対称性を破り、それによって最先端の対称性の破れを改善する。
本実験により, SATコンペティション2002の事例では30~60%, 小型合成式では25~50%の短縮が可能であることが示唆された。
論文 参考訳(メタデータ) (2024-11-12T17:31:35Z) - Next-Token Prediction Task Assumes Optimal Data Ordering for LLM Training in Proof Generation [27.60611509339328]
1つのトレーニングデータサンプルの最適順序は、特定の証明ステップの関連中間監督が、その証明ステップの左側に常に配置されているときに発生すると論じる。
証明が直感的に逐次順序にある場合、トレーニングが最も効果的であることを示す。
論文 参考訳(メタデータ) (2024-10-30T18:00:04Z) - Alchemy: Amplifying Theorem-Proving Capability through Symbolic Mutation [71.32761934724867]
この研究は、記号的突然変異を通じて形式的な定理を構成するデータ合成のフレームワークであるAlchemyを提案する。
マドリブにおける各候補定理について、書き直しや適用に使用できるすべてのイベーシブルな定理を同定する。
その結果、マドリブの定理の数は110kから6Mへと桁違いに増加する。
論文 参考訳(メタデータ) (2024-10-21T08:04:21Z) - Lean-STaR: Learning to Interleave Thinking and Proving [53.923617816215774]
証明の各ステップに先立って,非公式な思考を生成するために,言語モデルをトレーニングするフレームワークであるLean-STaRを紹介します。
Lean-STaRは、Lean定理証明環境内のminiF2F-testベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-07-14T01:43:07Z) - Proving Theorems Recursively [80.42431358105482]
本稿では、定理をレベル・バイ・レベルで証明するPOETRYを提案する。
従来のステップバイステップメソッドとは異なり、POETRYは各レベルで証明のスケッチを検索する。
また,POETRYが検出した最大証明長は10~26。
論文 参考訳(メタデータ) (2024-05-23T10:35:08Z) - Towards Large Language Models as Copilots for Theorem Proving in Lean [81.94024084598598]
大規模な言語モデルでリーン推論を実行するためのフレームワークであるLean Copilotを紹介します。
証明手順を提案し、中間的な証明目標を完了し、関連する前提を選択するためのツールを構築します。
実験により, 提案手法の有効性を実証し, 提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2024-04-18T22:54:08Z) - MUSTARD: Mastering Uniform Synthesis of Theorem and Proof Data [85.50740598523818]
MUSTARDは、高品質で多様性のある定理と証明データの均一な合成をマスターするフレームワークである。
5,866個の有効なデータポイントを持つMUSTARDSAUCEベンチマークを示す。
我々は広範囲な解析を行い、MUSTARDが検証された高品質なステップバイステップデータを生成することを示す。
論文 参考訳(メタデータ) (2024-02-14T05:57:58Z) - LeanDojo: Theorem Proving with Retrieval-Augmented Language Models [72.54339382005732]
大規模言語モデル(LLM)は、Leanのような証明アシスタントを使って形式的な定理を証明することを約束している。
既存のメソッドは、プライベートコード、データ、計算要求のために、複製や構築が難しい。
本稿では、ツールキット、データ、モデルからなるオープンソースのリーンツールキットであるLeanDojoを紹介します。
本研究では,LLM ベースの証明器 ReProver を開発した。
論文 参考訳(メタデータ) (2023-06-27T17:05:32Z) - Baldur: Whole-Proof Generation and Repair with Large Language Models [8.100054850290507]
我々は、自然言語のテキストとコードに基づいて訓練され、証明について微調整された大きな言語モデルを使用して、一度に定理のすべての証明を生成する。
我々は、この証明生成モデルと微調整の補修モデルを組み合わせて、生成した証明を修復し、さらに証明力を増強する。
本手法をプロトタイプであるBaldurで評価し、6,336 Isabelle/HOL定理とその証明のベンチマークで評価する。
論文 参考訳(メタデータ) (2023-03-08T22:00:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。