論文の概要: Towards Autonomous Mathematics Research
- arxiv url: http://arxiv.org/abs/2602.10177v1
- Date: Tue, 10 Feb 2026 18:50:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.221446
- Title: Towards Autonomous Mathematics Research
- Title(参考訳): 自律型数学研究に向けて
- Authors: Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang-hyun Kim, Federico Pasqualotto, Sergei Gukov, Jonathan N. Lee, Junsu Kim, Kaiying Hou, Golnaz Ghiasi, Yi Tay, YaGuang Li, Chenkai Kuang, Yuan Liu, Hanzhao, Lin, Evan Zheran Liu, Nigamaa Nayakanti, Xiaomeng Yang, Heng-tze Cheng, Demis Hassabis, Koray Kavukcuoglu, Quoc V. Le, Thang Luong,
- Abstract要約: Aletheiaは、自然言語のエンドツーエンドの解を反復的に生成し、検証し、修正する数学研究エージェントである。
我々は、オリンピアード問題から博士レベルのエクササイズまで、AI支援数学研究におけるいくつかのマイルストーンを通じて、アレクシアを実証する。
- 参考スコア(独自算出の注目度): 52.09513776843087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in foundational models have yielded reasoning systems capable of achieving a gold-medal standard at the International Mathematical Olympiad. The transition from competition-level problem-solving to professional research, however, requires navigating vast literature and constructing long-horizon proofs. In this work, we introduce Aletheia, a math research agent that iteratively generates, verifies, and revises solutions end-to-end in natural language. Specifically, Aletheia is powered by an advanced version of Gemini Deep Think for challenging reasoning problems, a novel inference-time scaling law that extends beyond Olympiad-level problems, and intensive tool use to navigate the complexities of mathematical research. We demonstrate the capability of Aletheia from Olympiad problems to PhD-level exercises and most notably, through several distinct milestones in AI-assisted mathematics research: (a) a research paper (Feng26) generated by AI without any human intervention in calculating certain structure constants in arithmetic geometry called eigenweights; (b) a research paper (LeeSeo26) demonstrating human-AI collaboration in proving bounds on systems of interacting particles called independent sets; and (c) an extensive semi-autonomous evaluation (Feng et al., 2026a) of 700 open problems on Bloom's Erdos Conjectures database, including autonomous solutions to four open questions. In order to help the public better understand the developments pertaining to AI and mathematics, we suggest codifying standard levels quantifying autonomy and novelty of AI-assisted results. We conclude with reflections on human-AI collaboration in mathematics.
- Abstract(参考訳): 基礎モデルの最近の進歩は、国際数学オリンピックでゴールドメディカル標準を達成することができる推論システムを生み出している。
しかし、競争レベルの問題解決から専門的な研究への移行には、膨大な文献をナビゲートし、長い水平証明を構築する必要がある。
本研究では,自然言語のエンドツーエンドの解を反復的に生成し,検証し,修正する数学研究エージェントであるAletheiaを紹介する。
特に、Aletheiaはゲミニ・ディープ・シンクの先進的なバージョンを駆使して、難解な推論問題、オリンピアードレベルの問題を超えて広がる新しい推論時間スケーリング法、数学的研究の複雑さをナビゲートするための集中的なツールの使用などに取り組んでいる。
我々は、Olympiad問題からPhDレベルのエクササイズまで、AI支援数学研究におけるいくつかのマイルストーンを通じて、アレクシアの能力を実証する。
(a)固有重みという算術幾何学における構造定数の計算に人間の介入なしにAIが生み出す研究論文(Feng26)
b)独立集合という相互作用粒子系における人間-AI協調の証明に関する研究論文(LeeSeo26)
(c)BloomのErdos Conjecturesデータベースに700のオープンな問題に対する広範な半自律的評価(Feng et al , 2026a)。
AIと数学に関する発展をよりよく理解するために、我々は、AI支援された結果の自律性と新規性を定量化するための標準レベルを定式化することを提案する。
数学における人間とAIの協調について考察した。
関連論文リスト
- Accelerating Scientific Research with Gemini: Case Studies and Common Techniques [105.15622072347811]
大規模言語モデル(LLM)は、科学研究を加速するための新たな道を開いた。
先進的なAIモデルとどのように協力したかを示すケーススタディのコレクションを提示する。
論文 参考訳(メタデータ) (2026-02-03T18:56:17Z) - PromptCoT: Synthesizing Olympiad-level Problems for Mathematical Reasoning in Large Language Models [59.920971312822736]
本稿では,高品質なオリンピアードレベルの数学問題を自動生成する新しい手法であるPromptCoTを紹介する。
提案手法は,問題構築の背景にある数学的概念と理論的根拠に基づいて複雑な問題を合成する。
提案手法は, GSM8K, MATH-500, AIME2024などの標準ベンチマークで評価され, 既存の問題生成手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-03-04T06:32:30Z) - Mathematics and Machine Creativity: A Survey on Bridging Mathematics with AI [14.825293189738849]
本稿では,人工知能(AI)の数学的研究への応用について概観する。
近年のAIの発展、特に強化学習(RL)と大規模言語モデル(LLM)は、AIが数学に貢献する可能性を実証している。
この調査は、AIと数学の橋渡し、相互利益に関する洞察を提供し、より深い学際的理解を促進することを目的としている。
論文 参考訳(メタデータ) (2024-12-21T08:58:36Z) - Formal Mathematical Reasoning: A New Frontier in AI [60.26950681543385]
我々は公式な数学的推論を提唱し、AI4Mathを次のレベルに進めるには不可欠であると主張している。
既存の進捗を要約し、オープンな課題について議論し、将来の成功を測るための重要なマイルストーンを想定します。
論文 参考訳(メタデータ) (2024-12-20T17:19:24Z) - Proving Olympiad Algebraic Inequalities without Human Demonstrations [3.3466865213133836]
複雑な不等式定理を自律的に生成できる代数的不等式証明システムである AIPS を提案する。
20 Olympiadレベルの不等式に関するテストセットでは、AIPSは10の解決に成功し、最先端の手法よりも優れていた。
1つの定理が2024年の大都市オリンピアードの競争問題に選ばれた。
論文 参考訳(メタデータ) (2024-06-20T11:37:53Z) - OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI [73.75520820608232]
我々は,11,163のバイリンガル問題を含む,テキストのみとインターリーブされたテキストイメージのモダリティを紹介する。
これらの課題には、7つのフィールドと62の国際オリンピック大会にわたる幅広い規律が含まれており、データ漏洩について厳格に調査されている。
我々の評価によると、GPT-4oのような先進モデルでさえ、複雑な推論とマルチモーダル統合における現在のAI制限を反映して、全体的な精度は39.97%しか達成していない。
論文 参考訳(メタデータ) (2024-06-18T16:20:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。