論文の概要: When AI Co-Scientists Fail: SPOT-a Benchmark for Automated Verification of Scientific Research
- arxiv url: http://arxiv.org/abs/2505.11855v1
- Date: Sat, 17 May 2025 05:45:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.897043
- Title: When AI Co-Scientists Fail: SPOT-a Benchmark for Automated Verification of Scientific Research
- Title(参考訳): AIの共同研究者が失敗したとき:SPOTは科学研究の自動検証のためのベンチマーク
- Authors: Guijin Son, Jiwoo Hong, Honglu Fan, Heejeong Nam, Hyunwoo Ko, Seungwon Lim, Jinyeop Song, Jinha Choi, Gonçalo Paulo, Youngjae Yu, Stella Biderman,
- Abstract要約: 大規模言語モデル(LLM)は、AIコサイシストと呼ばれる自動科学的発見のビジョンを加速させた。
大規模言語モデル(LLM)の最近の進歩は、しばしばAIコサイシストと呼ばれる自動科学的発見のビジョンを加速させた。
- 参考スコア(独自算出の注目度): 19.97666809905332
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have fueled the vision of automated scientific discovery, often called AI Co-Scientists. To date, prior work casts these systems as generative co-authors responsible for crafting hypotheses, synthesizing code, or drafting manuscripts. In this work, we explore a complementary application: using LLMs as verifiers to automate the \textbf{academic verification of scientific manuscripts}. To that end, we introduce SPOT, a dataset of 83 published papers paired with 91 errors significant enough to prompt errata or retraction, cross-validated with actual authors and human annotators. Evaluating state-of-the-art LLMs on SPOT, we find that none surpasses 21.1\% recall or 6.1\% precision (o3 achieves the best scores, with all others near zero). Furthermore, confidence estimates are uniformly low, and across eight independent runs, models rarely rediscover the same errors, undermining their reliability. Finally, qualitative analysis with domain experts reveals that even the strongest models make mistakes resembling student-level misconceptions derived from misunderstandings. These findings highlight the substantial gap between current LLM capabilities and the requirements for dependable AI-assisted academic verification.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、しばしばAIコサイシストと呼ばれる自動科学的発見のビジョンを加速させた。
これまでの研究は、これらのシステムを仮説の作成、コードの合成、原稿の起草に責任を持つ生成的共著者として捉えていた。
本研究では, LLMを検証子として使用し, 学術論文の自動検証を行う補完的応用について検討する。
この目的のために,本論文のデータセットであるSPOTを導入する。このデータセットには91個のエラーが組み合わされ,エラタやリトラクションが促され,実際の著者やアノテータと相互に検証される。
SPOT 上で最先端の LLM を評価すると、21.1\% のリコールや6.1\% の精度を超えるものは存在しない(o3 は最高のスコアを獲得し、他はすべてゼロに近い)。
さらに、信頼度は均一に低く、8つの独立した実行において、モデルが同じエラーを再発見することは滅多になく、信頼性を損なう。
最後に、ドメインの専門家との質的な分析により、最強のモデルでさえ誤解から派生した学生レベルの誤解に類似した誤りを犯すことが明らかとなった。
これらの知見は、現在のLLM能力と、信頼性の高いAI支援学術的検証の要件とのかなりのギャップを浮き彫りにしている。
関連論文リスト
- Discovering Knowledge Deficiencies of Language Models on Massive Knowledge Base [30.705524808195268]
大きな言語モデル(LLM)は印象的な言語能力を持っているが、しばしば事実の知識を忠実に保持することができない。
本稿では,LLMにおける知識不足(エラー)を発見するための,スケーラブルで効率的なフレームワークであるSEAを提案する。
SEAは自動能力発見の40.7倍、AutoBencherの26.7%以上の知識エラーを明らかにしている。
論文 参考訳(メタデータ) (2025-03-30T08:33:56Z) - Is Your Paper Being Reviewed by an LLM? A New Benchmark Dataset and Approach for Detecting AI Text in Peer Review [6.20631177269082]
我々は、AIで書かれたピアレビューを、対応する人間のレビューと組み合わせた合計788,984件の包括的データセットを導入する。
我々は、この新たなリソースを使用して、既存の18のAIテキスト検出アルゴリズムが、人間が書いたピアレビューと、最先端のLLMを区別する能力を評価する。
論文 参考訳(メタデータ) (2025-02-26T23:04:05Z) - Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - Missci: Reconstructing Fallacies in Misrepresented Science [84.32990746227385]
ソーシャルネットワーク上の健康関連の誤報は、意思決定の貧弱さと現実世界の危険につながる可能性がある。
ミスシは、誤った推論のための新しい議論理論モデルである。
大規模言語モデルの批判的推論能力をテストするためのデータセットとしてMissciを提案する。
論文 参考訳(メタデータ) (2024-06-05T12:11:10Z) - Exploring the use of a Large Language Model for data extraction in systematic reviews: a rapid feasibility study [0.28318468414401093]
本稿では,大規模言語モデル (LLM) である GPT-4 を用いて,体系的レビューにおけるデータ抽出(セミ)の実現可能性について述べる。
その結果,約80%の精度で,領域間での変動が認められた。
論文 参考訳(メタデータ) (2024-05-23T11:24:23Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - Enhancing Robustness of LLM-Synthetic Text Detectors for Academic
Writing: A Comprehensive Analysis [35.351782110161025]
大規模言語モデル(LLM)は、仕事と研究の方法に革命をもたらす多くの利点を提供する。
彼らはまた、潜在的なネガティブな結果のために、かなりの注意を払っている。
1つの例は、人的貢献の少ない学術報告書や論文を作成することである。
論文 参考訳(メタデータ) (2024-01-16T01:58:36Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - You Are the Best Reviewer of Your Own Papers: The Isotonic Mechanism [1.7741566627076264]
ノイズレビュースコアの精度を高めるためにイソトニックメカニズムを導入する。
複数の論文を提出した著者は、評価された品質の順に論文をランク付けする必要がある。
調整されたスコアは 生のスコアよりも正確です
論文 参考訳(メタデータ) (2022-06-14T14:35:53Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。