論文の概要: Semi-Autonomous Mathematics Discovery with Gemini: A Case Study on the Erdős Problems
- arxiv url: http://arxiv.org/abs/2601.22401v1
- Date: Thu, 29 Jan 2026 23:15:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.1206
- Title: Semi-Autonomous Mathematics Discovery with Gemini: A Case Study on the Erdős Problems
- Title(参考訳): Geminiによる半自律数学の発見--エルデシュ問題を事例として
- Authors: Tony Feng, Trieu Trinh, Garrett Bingham, Jiwon Kang, Shengtong Zhang, Sang-hyun Kim, Kevin Barreto, Carl Schildkraut, Junehyuk Jung, Jaehyeon Seo, Carlo Pagano, Yuri Chervonyi, Dawsen Hwang, Kaiying Hou, Sergei Gukov, Cheng-Chiang Tsai, Hyunwoo Choi, Youngbeom Jin, Wei-Yuan Li, Hao-An Wu, Ruey-An Shiu, Yu-Sheng Shih, Quoc V. Le, Thang Luong,
- Abstract要約: 我々はジェミニを用いて、ブルームのアーズ問題データベースに「オープン」とラベル付けされた700の予想を評価する。
データベースに'オープン'とマークされた13の問題に対処する。
以上の結果から,問題の「開放」状態は難易度よりも不明瞭度が原因であることが示唆された。
- 参考スコア(独自算出の注目度): 22.064232024924422
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present a case study in semi-autonomous mathematics discovery, using Gemini to systematically evaluate 700 conjectures labeled 'Open' in Bloom's Erdős Problems database. We employ a hybrid methodology: AI-driven natural language verification to narrow the search space, followed by human expert evaluation to gauge correctness and novelty. We address 13 problems that were marked 'Open' in the database: 5 through seemingly novel autonomous solutions, and 8 through identification of previous solutions in the existing literature. Our findings suggest that the 'Open' status of the problems was through obscurity rather than difficulty. We also identify and discuss issues arising in applying AI to math conjectures at scale, highlighting the difficulty of literature identification and the risk of ''subconscious plagiarism'' by AI. We reflect on the takeaways from AI-assisted efforts on the Erdős Problems.
- Abstract(参考訳): 本稿では,半自律的数学発見におけるケーススタディとして,ジェミニを用いて,ブルームのエルデシュ問題データベースで「オープン」とラベル付けされた700の予想を体系的に評価する。
探索空間を狭めるためにAIによる自然言語検証を行い、続いて人間の専門家による評価を行い、正確さと新規性を評価する。
データベースに'オープン'とマークされた13の問題に対処する。5つ目は一見新しい自律型ソリューション,8つ目は既存の文献における以前のソリューションの識別である。
以上の結果から,問題の「開放」状態は難易度よりも不明瞭度が原因であることが示唆された。
また、大規模数学予想にAIを適用した際の問題を特定し、議論し、文学的識別の難しさと、AIによる「無意識の盗作」のリスクを強調した。
我々は,AI支援によるエルデシュ問題への取り組みの成果を反映する。
関連論文リスト
- Counting Cycles with Deepseek [10.137124603866038]
サイクル数統計量に対して計算的に効率的な等価形式(CEEF)を導出する方法。
提案する新しいアプローチと,その問題を解決するためのAIの強力なコーディングスキルを組み合わせる。
AIは、この問題を解決できないが、明確な戦略、ステップバイステップのガイダンス、慎重に書かれたプロンプトを提供しれば、それを解決できる。
論文 参考訳(メタデータ) (2025-05-23T14:34:40Z) - Almost AI, Almost Human: The Challenge of Detecting AI-Polished Writing [55.2480439325792]
本研究では、AI-Polished-Text Evaluationデータセットを用いて、12の最先端AIテキスト検出器を体系的に評価する。
我々の発見によると、検出器は、最小限に洗練されたテキストをAI生成としてフラグ付けし、AIの関与度を区別し、古いモデルや小さなモデルに対するバイアスを示す。
論文 参考訳(メタデータ) (2025-02-21T18:45:37Z) - Formal Mathematical Reasoning: A New Frontier in AI [60.26950681543385]
我々は公式な数学的推論を提唱し、AI4Mathを次のレベルに進めるには不可欠であると主張している。
既存の進捗を要約し、オープンな課題について議論し、将来の成功を測るための重要なマイルストーンを想定します。
論文 参考訳(メタデータ) (2024-12-20T17:19:24Z) - FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI [8.32177898148028]
FrontierMath(フロンティアマス、フロンティアマス、FrontierMath)は、数学者が考案し検証した何百もの数学問題のベンチマークである。
現在の最先端のAIモデルは、問題の2%未満を解決し、AI能力と数学的コミュニティの長所との間に大きなギャップが浮かび上がっている。
AIシステムが専門家レベルの数学的能力に向かって進むにつれ、FrontierMathは彼らの進歩を定量化する厳格なテストベッドを提供する。
論文 参考訳(メタデータ) (2024-11-07T17:07:35Z) - Mathematics, word problems, common sense, and artificial intelligence [0.0]
本稿では,基本知識とコモンセンス推論を組み合わせた単語問題の解法として,現在の人工知能(AI)技術の能力と限界について論じる。
我々は、AI自然言語技術を用いて開発されている3つのアプローチについてレビューする。
純粋な数学的研究のためのAI技術を開発する上で、このような制限が重要であるかどうかは明らかではない、と我々は主張する。
論文 参考訳(メタデータ) (2023-01-23T21:21:39Z) - GeoQA: A Geometric Question Answering Benchmark Towards Multimodal
Numerical Reasoning [172.36214872466707]
我々は、テキスト記述、視覚図、定理知識の包括的理解を必要とする幾何学的問題を解くことに注力する。
そこで本研究では,5,010の幾何学的問題を含む幾何学的質問応答データセットGeoQAを提案する。
論文 参考訳(メタデータ) (2021-05-30T12:34:17Z) - Inter-GPS: Interpretable Geometry Problem Solving with Formal Language
and Symbolic Reasoning [123.06420835072225]
3,002の幾何学的問題と密接なアノテーションを形式言語に含む新しい大規模ベンチマークGeometry3Kを構築します。
我々は、Interpretable Geometry Problemsolvr (Inter-GPS)と呼ばれる形式言語と記号推論を用いた新しい幾何学的解法を提案する。
イントラGPSは定理の知識を条件付き規則として取り入れ、記号的推論を段階的に行う。
論文 参考訳(メタデータ) (2021-05-10T07:46:55Z) - Machine Number Sense: A Dataset of Visual Arithmetic Problems for
Abstract and Relational Reasoning [95.18337034090648]
文法モデルを用いて自動生成される視覚的算術問題からなるデータセット、MNS(Machine Number Sense)を提案する。
これらの視覚的算術問題は幾何学的フィギュアの形をしている。
我々は、この視覚的推論タスクのベースラインとして、4つの主要なニューラルネットワークモデルを用いて、MNSデータセットをベンチマークする。
論文 参考訳(メタデータ) (2020-04-25T17:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。