論文の概要: From Euler to Today: Universal Mathematical Fallibility A Large-Scale Computational Analysis of Errors in ArXiv Papers
- arxiv url: http://arxiv.org/abs/2511.10543v1
- Date: Fri, 14 Nov 2025 01:56:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.918539
- Title: From Euler to Today: Universal Mathematical Fallibility A Large-Scale Computational Analysis of Errors in ArXiv Papers
- Title(参考訳): Euler から今日へ : ArXiv 論文における誤りの大規模計算解析
- Authors: Igor Rivin,
- Abstract要約: 本稿では,ArXivレポジトリによる数学論文の大規模解析結果について述べる。
自動解析システムでは、複数の数学カテゴリにまたがって37,000以上の論文を処理し、エラー率と品質分布を明らかにした。
数値解析 (math.NA) では, 誤差率9.6% (23,761論文で2,271件) , 幾何トポロジー (math.GT) では6.5% (13,209論文で862件) であった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the results of a large-scale computational analysis of mathematical papers from the ArXiv repository, demonstrating a comprehensive system that not only detects mathematical errors but provides complete referee reports with journal tier recommendations. Our automated analysis system processed over 37,000 papers across multiple mathematical categories, revealing significant error rates and quality distributions. Remarkably, the system identified errors in papers spanning three centuries of mathematics, including works by Leonhard Euler (1707-1783) and Peter Gustav Lejeune Dirichlet (1805-1859), as well as contemporary Fields medalists. In Numerical Analysis (math.NA), we observed an error rate of 9.6\% (2,271 errors in 23,761 papers), while Geometric Topology (math.GT) showed 6.5\% (862 errors in 13,209 papers). Strikingly, Category Theory (math.CT) showed 0\% errors in 93 papers analyzed, with evidence suggesting these results are ``easier'' for automated analysis. Beyond error detection, the system evaluated papers for journal suitability, recommending 0.4\% for top generalist journals, 15.5\% for top field-specific journals, and categorizing the remainder across specialist venues. These findings demonstrate both the universality of mathematical error across all eras and the feasibility of automated comprehensive mathematical peer review at scale. This work demonstrates that the methodology, while applied here to mathematics, is discipline-agnostic and could be readily extended to physics, computer science, and other fields represented in the ArXiv repository.
- Abstract(参考訳): 本稿では,ArXivレポジトリから数学論文を大規模に解析し,数学的誤りを検知するだけでなく,ジャーナル層レコメンデーションの完全なレファレンスレポートを提供する包括的システムを示す。
自動解析システムでは、複数の数学カテゴリにまたがって37,000以上の論文を処理し、エラー率と品質分布を明らかにした。
注目すべきことに、このシステムは、レオナルド・オイラー(1707-1783年)やピーター・グスタフ・レジューヌ・ディリクレ(1805-1859年)、および当時のフィールズ・メダリストなど、数学の3世紀にわたる論文の誤りを特定した。
数値解析 (math.NA) では, 23,761論文で9.6\% (2,271エラー), Geometric Topology (math.GT) では6.5\% (13,209論文で862エラー) であった。
興味深いことに、カテゴリー理論 (math.CT) は93の論文で0\%の誤差を示し、これらの結果が自動解析の「'easier''」であることを示す証拠がある。
エラー検出以外にも、このシステムはジャーナルの適合性に関する論文を評価し、トップジェネリスト誌に0.4\%、トップフィールド専門誌に15.5\%を推奨し、残りの論文を専門の会場に分類した。
これらの結果は、あらゆる時代の数学的誤りの普遍性と、大規模に自動化された包括的数学的ピアレビューの実現可能性の両方を示している。
この研究は、この方法論が数学に応用されているものの、規律に依存せず、すぐに物理学、計算機科学、そしてArXivリポジトリに表される他の分野に拡張できることを示した。
関連論文リスト
- DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning [95.31714779585272]
DeepMath-103Kは、高い難易度(主に5-9レベル)で設計された大規模な数学的データセットである
これには、多数のベンチマークに対する厳格な除染、ルールベースのRL報酬に対する検証可能な回答が含まれる。
DeepMath-103Kは一般化可能な推論の進展を促進する。
論文 参考訳(メタデータ) (2025-04-15T17:59:51Z) - MathAgent: Leveraging a Mixture-of-Math-Agent Framework for Real-World Multimodal Mathematical Error Detection [53.325457460187046]
これらの課題に対処するために設計された新しいMixture-of-Math-AgentフレームワークであるMathAgentを紹介する。
MathAgentはエラー検出を3つのフェーズに分解し、それぞれが特別なエージェントによって処理される。
実世界の教育データに基づいてMathAgentを評価し,誤差ステップ同定の精度を約5%向上した。
論文 参考訳(メタデータ) (2025-03-23T16:25:08Z) - FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI [8.32177898148028]
FrontierMath(フロンティアマス、フロンティアマス、FrontierMath)は、数学者が考案し検証した何百もの数学問題のベンチマークである。
現在の最先端のAIモデルは、問題の2%未満を解決し、AI能力と数学的コミュニティの長所との間に大きなギャップが浮かび上がっている。
AIシステムが専門家レベルの数学的能力に向かって進むにつれ、FrontierMathは彼らの進歩を定量化する厳格なテストベッドを提供する。
論文 参考訳(メタデータ) (2024-11-07T17:07:35Z) - Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models [63.31878920079154]
Olympiadレベルでの大規模言語モデルの数学的推論を評価するためのベンチマークを提案する。
既存のOlympiad関連のベンチマークとは違って、我々のデータセットは数学に特化しており、厳密な人間のアノテーションを使った4428の競合レベルの問題の膨大なコレクションを含んでいる。
実験の結果,最も先進的なモデルであるOpenAI o1-miniとOpenAI o1-previewでさえ,60.54%と52.55%の精度で,オリンピアードレベルの問題に悩まされ,オリンピアードレベルの数学的推論において重大な課題が浮き彫りにされていることがわかった。
論文 参考訳(メタデータ) (2024-10-10T14:39:33Z) - Self-Supervised Pretraining of Graph Neural Network for the Retrieval of
Related Mathematical Expressions in Scientific Articles [8.942112181408156]
本稿では,機械学習に基づく数学的表現の検索手法を提案する。
埋め込み学習と自己教師型学習を組み合わせた教師なし表現学習タスクを設計する。
arXiv.orgで発行された90,000以上の出版物から、9900万以上の数学的表現を持つ巨大なデータセットを収集します。
論文 参考訳(メタデータ) (2022-08-22T12:11:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。