論文の概要: To Err Is Human: Systematic Quantification of Errors in Published AI Papers via LLM Analysis
- arxiv url: http://arxiv.org/abs/2512.05925v1
- Date: Fri, 05 Dec 2025 18:04:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:57.12531
- Title: To Err Is Human: Systematic Quantification of Errors in Published AI Papers via LLM Analysis
- Title(参考訳): 人間であるTo Err: LLM分析による公開AI論文のエラーの体系的定量化
- Authors: Federico Bianchi, Yongchan Kwon, Zachary Izzo, Linjun Zhang, James Zou,
- Abstract要約: 我々の分析は客観的な誤り(例えば、公式の誤り、導出、計算、数値、表など)に焦点を当てており、それは明らかに検証可能な基礎的な真実である。
論文は、未確認の客観的な誤り数を含み、NeurIPS 2021の3.8からNeurIPS 2025の5.9(55.3%)まで、紙1枚あたりの誤り数の平均が時間とともに増加したことが判明した。
我々は、AIチェッカーが特定ミスの75.8%の修正を提案できることを示す。
- 参考スコア(独自算出の注目度): 47.124493265404595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How many mistakes do published AI papers contain? Peer-reviewed publications form the foundation upon which new research and knowledge are built. Errors that persist in the literature can propagate unnoticed, creating confusion in follow-up studies and complicating reproducibility. The accelerating pace of research and the increasing demands on the peer-review system make such mistakes harder to detect and avoid. To address this, we developed a Paper Correctness Checker based on GPT-5 to systematically identify mistakes in papers previously published at top AI conferences and journals. Our analysis focuses on objective mistakes-e.g., errors in formulas, derivations, calculations, figures, and tables-that have a clearly verifiable ground truth. We intentionally exclude subjective considerations such as novelty, importance, or writing quality. We find that published papers contain a non-negligible number of objective mistakes and that the average number of mistakes per paper has increased over time-from 3.8 in NeurIPS 2021 to 5.9 in NeurIPS 2025 (55.3% increase); from 4.1 in ICLR 2018 to 5.2 in ICLR 2025; and from 5.0 in TMLR 2022/23 to 5.5 in TMLR 2025. Human experts reviewed 316 potential mistakes identified by the AI Checker and confirmed that 263 were actual mistakes, corresponding to a precision of 83.2%. While most identified issues are relatively minor, correcting them would reduce confusion in the literature and strengthen reproducibility. The AI Checker also surfaced potentially more substantive mistakes that could affect the interpretation of results. Moreover, we show that the AI Checker can propose correct fixes for 75.8% of the identified mistakes. Overall, this study highlights the potential of frontier LLMs to detect and correct objective mistakes in published papers, helping to establish a firmer foundation of knowledge.
- Abstract(参考訳): AI論文には、いくつの誤りが含まれているか?
ピアレビューされた出版物は、新しい研究と知識が構築される基盤を形成する。
文献に残る誤りは、気付かれずに伝播し、フォローアップ研究で混乱を生じさせ、再現性を複雑にする。
研究の加速とピアレビューシステムに対する要求の増大は、そのようなミスを検知し回避することを困難にしている。
そこで我々は,GPT-5をベースとした論文の誤りを系統的に識別するペーパー正当性チェッカーを開発した。
我々の分析は、客観的な誤り、例えば、公式の誤り、導出、計算、数値、そして明らかに検証可能な基礎的真理を持つ表に焦点をあてる。
我々は故意に、新規性、重要性、品質などの主観的考察を除外する。
論文には, 客観的な誤りが無数に含まれており, 論文毎の誤り数はNeurIPS 2021では3.8件からNeurIPS 2025では5.9件(55.3%), ICLR 2018では4.1件, ICLR 2025では5.2件, TMLR 2022/23では5.0件からTMLR 2025では5.5件に増加した。
人間の専門家はAIチェッカーによって確認された316の潜在的な誤りをレビューし、263が実際の誤りであると確認した。
ほとんどの特定された問題は比較的小さなものであるが、それらを修正することで文学の混乱を減らし、再現性を強化するだろう。
AIチェッカーはまた、結果の解釈に影響を及ぼす可能性のある、より現実的な間違いを表面化した。
さらに、AIチェッカーが特定ミスの75.8%の修正を提案できることを示す。
本研究は, 論文において, 客観的誤りを検出し, 訂正するフロンティアLSMの可能性を強調し, より強固な知識基盤の確立に寄与する。
関連論文リスト
- FLAWS: A Benchmark for Error Identification and Localization in Scientific Papers [10.04850395402571]
エラーの特定とローカライゼーションは、ピアレビューにおける中核的なタスクである。
大規模言語モデル(LLM)の最近の進歩は、そのような評価タスクをサポートする可能性への関心を喚起している。
レビューシステムにおけるLSMの利用が増加しているにもかかわらず、エラーを特定できる能力はいまだに未調査のままである。
論文 参考訳(メタデータ) (2025-11-26T19:19:44Z) - BadScientist: Can a Research Agent Write Convincing but Unsound Papers that Fool LLM Reviewers? [21.78901120638025]
製造指向の紙生成エージェントがマルチモデルLCMレビューシステムを欺くことができるかどうかを考察する。
我々のジェネレータは、実際の実験を必要としないプレゼンテーション操作戦略を採用している。
健全な集約数学にもかかわらず、整合性検査は体系的に失敗する。
論文 参考訳(メタデータ) (2025-10-20T18:37:11Z) - When AI Co-Scientists Fail: SPOT-a Benchmark for Automated Verification of Scientific Research [19.97666809905332]
大規模言語モデル(LLM)は、AIコサイシストと呼ばれる自動科学的発見のビジョンを加速させた。
大規模言語モデル(LLM)の最近の進歩は、しばしばAIコサイシストと呼ばれる自動科学的発見のビジョンを加速させた。
論文 参考訳(メタデータ) (2025-05-17T05:45:16Z) - Subtle Errors in Reasoning: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは、事前定義された微妙なエラーをピボットトークンに注入する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - Evaluating Mathematical Reasoning of Large Language Models: A Focus on Error Identification and Correction [35.01097297297534]
LLM(Large Language Models)の既存の評価は、検査の観点からの問題解決に重点を置いている。
我々は、アノテーション付きエラータイプとステップを持つ新しいデータセットとともに、エラー識別と修正のための4つの評価タスクを定義した。
その結果, GPT-4は全モデルより優れており, LLaMA-2-7BはGPT-3.5やGemini Proに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-06-02T14:16:24Z) - Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews [51.453135368388686]
本稿では,大規模言語モデル (LLM) によって実質的に修正あるいは生成される可能性のある大規模コーパスにおけるテキストの分数推定手法を提案する。
我々の最大可能性モデルは、専門家による参照テキストとAIによる参照テキストを利用して、コーパスレベルでの実世界のLLM使用を正確かつ効率的に検証する。
論文 参考訳(メタデータ) (2024-03-11T21:51:39Z) - AI-enhanced Auto-correction of Programming Exercises: How Effective is
GPT-3.5? [0.0]
本稿では、パーソナライズされたコード修正とフィードバック生成におけるAIの可能性について検討する。
GPT-3.5は、実際のエラーではないエラーのローカライズや、幻覚的エラーなど、評価の弱点を示した。
論文 参考訳(メタデータ) (2023-10-24T10:35:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。