論文の概要: FLAWS: A Benchmark for Error Identification and Localization in Scientific Papers
- arxiv url: http://arxiv.org/abs/2511.21843v1
- Date: Wed, 26 Nov 2025 19:19:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.260281
- Title: FLAWS: A Benchmark for Error Identification and Localization in Scientific Papers
- Title(参考訳): FLAWS: 科学的論文における誤り識別と位置推定のためのベンチマーク
- Authors: Sarina Xi, Vishisht Rao, Justin Payan, Nihar B. Shah,
- Abstract要約: エラーの特定とローカライゼーションは、ピアレビューにおける中核的なタスクである。
大規模言語モデル(LLM)の最近の進歩は、そのような評価タスクをサポートする可能性への関心を喚起している。
レビューシステムにおけるLSMの利用が増加しているにもかかわらず、エラーを特定できる能力はいまだに未調査のままである。
- 参考スコア(独自算出の注目度): 10.04850395402571
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The identification and localization of errors is a core task in peer review, yet the exponential growth of scientific output has made it increasingly difficult for human reviewers to reliably detect errors given the limited pool of experts. Recent advances in Large Language Models (LLMs) have sparked interest in their potential to support such evaluation tasks, from academic peer review to automated scientific assessment. However, despite the growing use of LLMs in review systems, their capabilities to pinpoint errors remain underexplored. In this work, we introduce Fault Localization Across Writing in Science (FLAWS), an automated benchmark consisting of 713 paper-error pairs designed to evaluate how effectively LLMs detect errors that undermine key claims in research papers. We construct the benchmark by systematically inserting claim-invalidating errors into peer-reviewed papers using LLMs, paired with an automated evaluation metric that measures whether models can identify and localize these errors. Developing such a benchmark presents unique challenges that we overcome: ensuring that the inserted errors are well-defined, challenging, and relevant to the content of the paper, avoiding artifacts that would make identification trivial, and designing a scalable, automated evaluation metric. On the resulting benchmark, we evaluate five frontier LLMs: Claude Sonnet 4.5, DeepSeek Reasoner v3.1, Gemini 2.5 Pro, GPT 5, and Grok 4. Among these, GPT 5 is the top-performing model, achieving 39.1% identification accuracy when k=10, where k is the number of top-ranked error text candidates generated by the LLM.
- Abstract(参考訳): エラーの特定と局所化はピアレビューにおける中核的な課題であるが、科学的なアウトプットの指数関数的な成長は、専門家の限られたプールを考えると、人間のレビュアーがエラーを確実に検出することがますます困難になっている。
近年のLarge Language Models(LLM)の進歩は、学術的ピアレビューから自動科学的評価に至るまで、そのような評価タスクを支援する可能性への関心を喚起している。
しかし、レビューシステムにおけるLLMの利用が増加しているにもかかわらず、エラーを特定できる能力はいまだに未調査のままである。
本研究では,LLMが研究論文のキークレームを損なう誤りをいかに効果的に検出するかを評価するために設計された,713枚の紙エラーペアからなる自動ベンチマークであるFLAWS(Fault Localization Across Writing in Science)を紹介する。
提案手法は, LLMを用いたピアレビュー論文に, モデルがこれらの誤りを識別・ローカライズできるかどうかを判断する自動評価指標と組み合わせて, クレーム無効なエラーを系統的に挿入することで, ベンチマークを構築した。
このようなベンチマークの開発は、挿入されたエラーが十分に定義され、困難で、論文の内容に関連があることを保証すること、識別を自明なものにするアーティファクトを避けること、スケーラブルで自動化された評価指標を設計すること、という、私たちが克服するユニークな課題を提示します。
得られたベンチマークでは、Claude Sonnet 4.5、DeepSeek Reasoner v3.1、Gemini 2.5 Pro、GPT 5、Grok 4の5つのフロンティアLSMを評価した。
このうち、GPT 5は最高性能モデルであり、k=10のときに39.1%の識別精度を達成し、kはLLMが生成したトップランクエラーテキスト候補の数である。
関連論文リスト
- BadScientist: Can a Research Agent Write Convincing but Unsound Papers that Fool LLM Reviewers? [21.78901120638025]
製造指向の紙生成エージェントがマルチモデルLCMレビューシステムを欺くことができるかどうかを考察する。
我々のジェネレータは、実際の実験を必要としないプレゼンテーション操作戦略を採用している。
健全な集約数学にもかかわらず、整合性検査は体系的に失敗する。
論文 参考訳(メタデータ) (2025-10-20T18:37:11Z) - ELAIPBench: A Benchmark for Expert-Level Artificial Intelligence Paper Understanding [49.67493845115009]
ELAIPBenchは、大規模言語モデルによるAI研究論文の理解を評価するために、ドメインの専門家によってキュレーションされたベンチマークである。
難易度は3つあり、浅い検索よりも非自明な推論に重点を置いている。
実験の結果、最高の性能のLSMは、人間の性能よりはるかに低い39.95%の精度しか達成できないことがわかった。
論文 参考訳(メタデータ) (2025-10-12T11:11:20Z) - Reviewing Scientific Papers for Critical Problems With Reasoning LLMs: Baseline Approaches and Automatic Evaluation [0.552480439325792]
本稿では,いくつかのベースラインアプローチと,トップ推論 LLM を判断として用いた拡張可能な自動評価フレームワークを提案する。
O3は、全てのモデルで最低限のコストで、最高の問題識別性能を示した。
本稿では,文書に基づく科学的理解・推論に関する知見を提供し,今後の応用の基盤となる。
論文 参考訳(メタデータ) (2025-05-28T06:14:30Z) - When AI Co-Scientists Fail: SPOT-a Benchmark for Automated Verification of Scientific Research [19.97666809905332]
大規模言語モデル(LLM)は、AIコサイシストと呼ばれる自動科学的発見のビジョンを加速させた。
大規模言語モデル(LLM)の最近の進歩は、しばしばAIコサイシストと呼ばれる自動科学的発見のビジョンを加速させた。
論文 参考訳(メタデータ) (2025-05-17T05:45:16Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - FELM: Benchmarking Factuality Evaluation of Large Language Models [40.78878196872095]
本稿では,Felmと呼ばれる大規模言語モデルのファクチュアリティ評価のためのベンチマークを紹介する。
我々は,大規模言語モデルから生成された応答を収集し,微粒な方法で事実ラベルを注釈付けする。
その結果,検索は事実性評価に役立つが,現在のLCMは事実の誤りを忠実に検出するには不十分であることがわかった。
論文 参考訳(メタデータ) (2023-10-01T17:37:31Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。