Fugu-MT 論文翻訳(概要): FIMO: A Challenge Formal Dataset for Automated Theorem Proving

論文の概要: FIMO: A Challenge Formal Dataset for Automated Theorem Proving

arxiv url: http://arxiv.org/abs/2309.04295v1
Date: Fri, 8 Sep 2023 12:34:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-11 13:32:34.529134
Title: FIMO: A Challenge Formal Dataset for Automated Theorem Proving
Title（参考訳）: FIMO: 自動定理証明のための挑戦形式データセット
Authors: Chengwu Liu, Jianhao Shen, Huajian Xin, Zhengying Liu, Ye Yuan, Haiming Wang, Wei Ju, Chuanyang Zheng, Yichun Yin, Lin Li, Ming Zhang, Qun Liu
Abstract要約: FIMOは、IMOレベルでの高度な自動定理証明を容易にするように設計されている。公式な問題文は149で、非公式な問題記述とそれに対応する非公式な証明の両方を伴っている。
参考スコア（独自算出の注目度）: 31.695624833932577
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present FIMO, an innovative dataset comprising formal mathematical problem statements sourced from the International Mathematical Olympiad (IMO) Shortlisted Problems. Designed to facilitate advanced automated theorem proving at the IMO level, FIMO is currently tailored for the Lean formal language. It comprises 149 formal problem statements, accompanied by both informal problem descriptions and their corresponding LaTeX-based informal proofs. Through initial experiments involving GPT-4, our findings underscore the existing limitations in current methodologies, indicating a substantial journey ahead before achieving satisfactory IMO-level automated theorem proving outcomes.
Abstract（参考訳）: IMO(International Mathematical Olympiad)ショートリスト問題から得られる公式な数学的問題文からなる革新的なデータセットFIMOを提案する。 IMOレベルでの高度な自動定理の証明を容易にするために設計されたFIMOは現在、Lean形式言語用に調整されている。 149の形式的問題文と、形式的問題記述と、それに対応するラテックスに基づく形式的証明の両方からなる。 GPT-4に関する最初の実験を通じて,本研究は既存の手法の限界を浮き彫りにし,優れたIMOレベルの自動定理の証明に先立って大きな進歩をみせている。

関連論文リスト

From Abstract to Contextual: What LLMs Still Cannot Do in Mathematics [79.81905350372067]
我々は文脈的数学的推論を通してギャップを研究する。 AIMEとMATH-500の問題を2つのコンテキスト設定に再利用するベンチマークであるContextMATHを紹介する。オープンソースモデルはSGとCSで13、34ポイント減少し、プロプライエタリモデルは13、20ポイント減少している。
論文参考訳（メタデータ） (2026-01-30T14:56:04Z)
IndiMathBench: Autoformalizing Mathematical Reasoning Problems with a Human Touch [8.80477323574638]
IndiMathBenchは、数学的定理の証明を評価するために設計された人間検証ベンチマークである。 IndiMathBenchは312の形式的Lean 4定理とそれに対応する非公式な問題文を組み合わせて構成されている。
論文参考訳（メタデータ） (2025-11-30T17:40:13Z)
FormalML: A Benchmark for Evaluating Formal Subgoal Completion in Machine Learning Theory [44.64175433092553]
大規模言語モデル (LLM) は、最近、形式定理の証明において顕著な進歩を見せている。しかし、数学者の実践的なアシスタントとして機能する能力は、複雑な証明の中で欠落したステップを埋めるものであり、まだ解明されていない。機械学習の基礎理論に基づいて構築された、リーン4ベンチマークであるFormalMLを紹介します。
論文参考訳（メタデータ） (2025-09-26T14:40:14Z)
Lean Meets Theoretical Computer Science: Scalable Synthesis of Theorem Proving Challenges in Formal-Informal Pairs [41.29431283264807]
本稿では、厳密な証明問題のスケーラブルな情報源として理論計算機科学(TCS)を活用することを提案する。本稿では,2つのTCS領域に対して,チューリング機械停止動作の証明を含むベイジービーバー問題(Busy Beaver problem)と,論理と算術の推論を組み合わせた混合ブール算術問題(Mixed Boolean Arithmetic problem)を提案する。我々のフレームワークは,並列形式 (Lean4) と非公式 (Markdown) 仕様で問題を自動生成し,検証問題を生成するスケーラブルなパイプラインを作成する。
論文参考訳（メタデータ） (2025-08-21T14:15:40Z)
FMC: Formalization of Natural Language Mathematical Competition Problems [12.86616278136374]
本稿では,誤りフィードバックを伴う大規模言語モデルに基づく自動形式化パイプラインを提案する。 Olympiadレベルのデータセットを、自然言語の問題をリーンの形式化と整合させます。少数ショット学習,エラーフィードバック,サンプリング数の増加により,自動形式化プロセスが促進されることを示す。
論文参考訳（メタデータ） (2025-07-15T12:52:47Z)
Mathesis: Towards Formal Theorem Proving from Natural Languages [40.397691467863886]
パイプライン処理の非公式な問題文を証明する最初のエンドツーエンド定理であるMathesisを開発した。これは、自然言語問題の形式化能力を高めるために強化学習を用いた最初のオートフォーマライザであるMathesis-Autoformalizerに貢献する。また、形式化された文から形式的な証明を生成するMathesis-Proverを提案する。
論文参考訳（メタデータ） (2025-06-08T09:04:14Z)
Enumerate-Conjecture-Prove: Formally Solving Answer-Construction Problems in Math Competitions [37.10426226729792]
本稿では,パターン駆動型推論と形式的定理証明を統合するモジュール型ニューロシンボリック手法であるLLMe-Conjecture-Prove(ECP)フレームワークを紹介する。本稿では,様々な数学コンペティションにおける3,431の解題問題のデータセットであるConstructiveBenchを紹介する。
論文参考訳（メタデータ） (2025-05-24T03:52:25Z)
FormalMATH: Benchmarking Formal Mathematical Reasoning of Large Language Models [17.919212265668783]
本稿では,高校のオリンピアード問題から学部レベルの定理まで,5,560の公証問題からなる大規模Lean4ベンチマークであるFormalMATHを提案する。本稿では,文の自動形式化,セマンティック検証,否定に基づく無防備なフィルタリング戦略を統合した,新たなオートフォーマル化パイプラインを提案する。現状のLSMに基づく定理証明器の評価は, 重大な限界を呈する。
論文参考訳（メタデータ） (2025-05-05T15:37:00Z)
PromptCoT: Synthesizing Olympiad-level Problems for Mathematical Reasoning in Large Language Models [59.920971312822736]
本稿では,高品質なオリンピアードレベルの数学問題を自動生成する新しい手法であるPromptCoTを紹介する。提案手法は,問題構築の背景にある数学的概念と理論的根拠に基づいて複雑な問題を合成する。提案手法は, GSM8K, MATH-500, AIME2024などの標準ベンチマークで評価され, 既存の問題生成手法を一貫して上回っている。
論文参考訳（メタデータ） (2025-03-04T06:32:30Z)
Formal Mathematical Reasoning: A New Frontier in AI [60.26950681543385]
我々は公式な数学的推論を提唱し、AI4Mathを次のレベルに進めるには不可欠であると主張している。既存の進捗を要約し、オープンな課題について議論し、将来の成功を測るための重要なマイルストーンを想定します。
論文参考訳（メタデータ） (2024-12-20T17:19:24Z)
Alchemy: Amplifying Theorem-Proving Capability through Symbolic Mutation [71.32761934724867]
この研究は、記号的突然変異を通じて形式的な定理を構成するデータ合成のフレームワークであるAlchemyを提案する。マドリブにおける各候補定理について、書き直しや適用に使用できるすべてのイベーシブルな定理を同定する。その結果、マドリブの定理の数は110kから6Mへと桁違いに増加する。
論文参考訳（メタデータ） (2024-10-21T08:04:21Z)
Mathematical Formalized Problem Solving and Theorem Proving in Different Fields in Lean 4 [0.0]
本稿では,Large Language Models (LLMs) を用いて,形式的証明ステップと完全形式的証明を生成する。目標は、AIをどのように活用して数学的形式化プロセスを支援し、パフォーマンスを向上させるかを決定することである。
論文参考訳（メタデータ） (2024-09-09T18:21:28Z)
Autoformalizing Euclidean Geometry [74.72212706513318]
ユークリッド幾何学の自己形式化のためのニューロシンボリックフレームワークを提案する。 1つの課題は、非公式な証明が図に頼り、形式化が難しいテキストのギャップを残すことである。自己形式化定理文の自動意味評価を行う。
論文参考訳（メタデータ） (2024-05-27T14:35:10Z)
DeepSeek-Prover: Advancing Theorem Proving in LLMs through Large-Scale Synthetic Data [65.5290035371111]
本稿では,高校・学部レベルの数学競争問題から得られたリーン4証明データを生成する手法を提案する。この合成データセットでDeepSeekMath 7Bモデルを微調整します。我々のモデルは、Lean 4 Formalized International Mathematical Olympiad (FIMO)ベンチマークで148の問題を5つ証明しましたが、GPT-4は証明できませんでした。
論文参考訳（メタデータ） (2024-05-23T09:03:42Z)
MUSTARD: Mastering Uniform Synthesis of Theorem and Proof Data [85.50740598523818]
MUSTARDは、高品質で多様性のある定理と証明データの均一な合成をマスターするフレームワークである。 5,866個の有効なデータポイントを持つMUSTARDSAUCEベンチマークを示す。我々は広範囲な解析を行い、MUSTARDが検証された高品質なステップバイステップデータを生成することを示す。
論文参考訳（メタデータ） (2024-02-14T05:57:58Z)
A New Approach Towards Autoformalization [7.275550401145199]
オートフォーマル化(Autoformalization)は、自然言語をプログラムで検証可能な形式言語に変換するタスクである。研究論文は大量の背景と文脈を必要とする。本稿では,研究レベルの数学の自己形式化に取り組み,タスクをより容易に,より親しみやすいサブタスクに分割する手法を提案する。
論文参考訳（メタデータ） (2023-10-12T00:50:24Z)
Experimental results from applying GPT-4 to an unpublished formal language [0.0]
最先端のシステムであるGPT-4は、未発表の形式システムのための簡潔な自然言語仕様を備えていた。システムは全てのタスクを成功させ、広範なドメイン知識を示し、有用な新しい構文と意味論を発明し、一般化と推論能力を示した。
論文参考訳（メタデータ） (2023-05-20T14:00:08Z)
Formal Mathematics Statement Curriculum Learning [64.45821687940946]
同じ計算予算、専門家の反復、つまり、学習にインターリーブされた証明検索が、証明検索のみを劇的に上回っていることを示す。また, 難易度が十分に異なる形式文の集合に適用した場合, 専門家の反復により, ますます困難な問題に対するカリキュラムの発見と解決が可能であることも観察した。
論文参考訳（メタデータ） (2022-02-03T00:17:00Z)
Generative Language Modeling for Automated Theorem Proving [94.01137612934842]
この研究は、自動定理プロバーの人間に対する大きな制限が言語モデルから生成することで対処できる可能性によって動機づけられている。本稿ではメタマス形式化言語のための自動証明と証明アシスタント GPT-f を提案し,その性能を解析する。
論文参考訳（メタデータ） (2020-09-07T19:50:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。