論文の概要: Proving Olympiad Algebraic Inequalities without Human Demonstrations
- arxiv url: http://arxiv.org/abs/2406.14219v2
- Date: Thu, 31 Oct 2024 03:24:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 16:57:49.107508
- Title: Proving Olympiad Algebraic Inequalities without Human Demonstrations
- Title(参考訳): 人為的な説明を伴わないオリンピアス代数的不平等の証明
- Authors: Chenrui Wei, Mengzhou Sun, Wei Wang,
- Abstract要約: 複雑な不等式定理を自律的に生成できる代数的不等式証明システムである AIPS を提案する。
20 Olympiadレベルの不等式に関するテストセットでは、AIPSは10の解決に成功し、最先端の手法よりも優れていた。
1つの定理が2024年の大都市オリンピアードの競争問題に選ばれた。
- 参考スコア(独自算出の注目度): 3.3466865213133836
- License:
- Abstract: Solving Olympiad-level mathematical problems represents a significant advancement in machine intelligence and automated reasoning. Current machine learning methods, however, struggle to solve Olympiad-level problems beyond Euclidean plane geometry due to a lack of large-scale, high-quality datasets. The challenge is even greater in algebraic systems, which involve infinite reasoning spaces within finite conditions. To address these issues, we propose AIPS, an Algebraic Inequality Proving System capable of autonomously generating complex inequality theorems and effectively solving Olympiad-level inequality problems without requiring human demonstrations. During proof search in a mixed reasoning manner, a value curriculum learning strategy on generated datasets is implemented to improve proving performance, demonstrating strong mathematical intuitions. On a test set of 20 International Mathematical Olympiad-level inequality problems, AIPS successfully solved 10, outperforming state-of-the-art methods. Furthermore, AIPS automatically generated a vast array of non-trivial theorems without human intervention, some of which have been evaluated by professional contestants and deemed to reach the level of the International Mathematical Olympiad. Notably, one theorem was selected as a competition problem in a major city 2024 Mathematical Olympiad.
- Abstract(参考訳): オリンピアードレベルの数学問題を解くことは、マシンインテリジェンスと自動推論の大幅な進歩を示している。
しかし、現在の機械学習手法は、大規模で高品質なデータセットが欠如しているため、ユークリッド平面幾何学を超えたオリンピアードレベルの問題を解決するのに苦労している。
この問題は有限条件内の無限の推論空間を含む代数系においてさらに大きい。
これらの問題に対処するため、我々は複雑な不等式定理を自律的に生成し、人間の実演を必要とせず、オリンピアードレベルの不等式問題を効果的に解決できる代数的不等式証明システムであるAIPSを提案する。
混合推論方式で証明探索を行う際、生成したデータセットの値カリキュラム学習戦略を実装し、証明性能を向上し、強力な数学的直観を示す。
国際数理オリンピックレベルの不等式問題20の試験セットにおいて、AIPSは10の解決に成功し、最先端の手法より優れていた。
さらに、AIPSは人間の介入なしに膨大な数の非自明な定理を自動生成し、その一部はプロの競技者によって評価され、国際数学オリンピックの水準に達していると見なされている。
特に、大都市2024の数学オリンピアードにおける競合問題として1つの定理が選ばれた。
関連論文リスト
- Large Language Models for Mathematical Analysis [3.7325315394927023]
この研究は、数学的推論における重要なギャップに対処し、信頼できるAIの進歩に寄与する。
DEMI-MathAnalysisデータセットを開発した。
また,LLMの問題解決能力を高めるためのガイドフレームワークも設計した。
論文 参考訳(メタデータ) (2024-12-28T20:37:55Z) - Proposing and solving olympiad geometry with guided tree search [63.824930029019995]
木探索に基づくガイド付き問題解決を支援するユークリッド幾何学システムであるTongGeometryを紹介する。
TongGeometryは、補助的な構成を必要とする67億の幾何学定理を発見した。
トンゲメトリーはIMO-AG-30ですべての国際数学オリンピック幾何学を解き、金メダリストを初めて上回った。
論文 参考訳(メタデータ) (2024-12-14T04:20:47Z) - MathGAP: Out-of-Distribution Evaluation on Problems with Arbitrarily Complex Proofs [80.96119560172224]
MathGAPは、それらの算術的証明構造に関する仕様に従って、問題文と連鎖推論トレースを生成する。
MathGAP を用いて, LLM はより深く, より広くなるにつれて, 性能が著しく低下することがわかった。
論文 参考訳(メタデータ) (2024-10-17T12:48:14Z) - Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models [63.31878920079154]
Olympiadレベルでの大規模言語モデルの数学的推論を評価するためのベンチマークを提案する。
既存のOlympiad関連のベンチマークとは違って、我々のデータセットは数学に特化しており、厳密な人間のアノテーションを使った4428の競合レベルの問題の膨大なコレクションを含んでいる。
実験の結果,最も先進的なモデルであるOpenAI o1-miniとOpenAI o1-previewでさえ,60.54%と52.55%の精度で,オリンピアードレベルの問題に悩まされ,オリンピアードレベルの数学的推論において重大な課題が浮き彫りにされていることがわかった。
論文 参考訳(メタデータ) (2024-10-10T14:39:33Z) - Evaluating Large Vision-and-Language Models on Children's Mathematical Olympiads [74.54183505245553]
ジョイントビジョンとテキスト推論のためのAI能力の体系的分析は、現在の科学文献に欠けている。
我々は,子どものオリンピアードからのビジュオ言語問題を用いて,その数学的およびアルゴリズム的推論能力に基づいて,最先端のLVLMを評価した。
以上の結果から,近代のLVLMは,高学年の問題解決において,より強力な推論能力を示す一方で,幼児向けの問題に正しく答える基盤が欠如していることが示唆された。
論文 参考訳(メタデータ) (2024-06-22T05:04:39Z) - OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI [73.75520820608232]
我々は,11,163のバイリンガル問題を含む,テキストのみとインターリーブされたテキストイメージのモダリティを紹介する。
これらの課題には、7つのフィールドと62の国際オリンピック大会にわたる幅広い規律が含まれており、データ漏洩について厳格に調査されている。
我々の評価によると、GPT-4oのような先進モデルでさえ、複雑な推論とマルチモーダル統合における現在のAI制限を反映して、全体的な精度は39.97%しか達成していない。
論文 参考訳(メタデータ) (2024-06-18T16:20:53Z) - Mathify: Evaluating Large Language Models on Mathematical Problem Solving Tasks [34.09857430966818]
我々は,11番目と12番目の標準数学 NCERT 教科書から得られた数学データセット "MathQuest" を紹介する。
LLaMA-2, WizardMath, MAmmoTHの3つの大きな言語モデルを用いた微調整実験を行った。
この3つのモデルのうち,MAmmoTH-13Bが最も熟練したモデルとして登場し,提示された数理問題の解法において,最高レベルの能力を達成した。
論文 参考訳(メタデータ) (2024-04-19T08:45:42Z) - OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems [62.06169250463104]
我々はOlympiadレベルのバイリンガル・マルチモーダル・サイエンス・ベンチマークであるOlympiadBenchを紹介し、Olympiadレベルの数学と物理学のコンペティションの8,476の問題を特徴とする。
最も優れたモデルであるGPT-4Vはオリンピアドベンチで平均17.97%を獲得し、物理学ではわずか10.74%である。
GPT-4Vの分析では、幻覚、知識欠失、論理的誤信などの問題が指摘されている。
論文 参考訳(メタデータ) (2024-02-21T18:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。