論文の概要: Automatic Reviewers Fail to Detect Faulty Reasoning in Research Papers: A New Counterfactual Evaluation Framework
- arxiv url: http://arxiv.org/abs/2508.21422v1
- Date: Fri, 29 Aug 2025 08:48:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:10.973105
- Title: Automatic Reviewers Fail to Detect Faulty Reasoning in Research Papers: A New Counterfactual Evaluation Framework
- Title(参考訳): 自動レビュアーは、研究論文の欠陥推論を検知できない:新しい非現実的評価フレームワーク
- Authors: Nils Dycke, Iryna Gurevych,
- Abstract要約: 我々は、高品質なピアレビューを支えるコアレビュースキル、すなわち欠陥のある研究ロジックの検出に注力する。
これは、論文の結果、解釈、クレームの間の内部の一貫性を評価することを含む。
本稿では,このスキルを制御条件下で分離し,テストする,完全自動対物評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 55.078301794183496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have great potential to accelerate and support scholarly peer review and are increasingly used as fully automatic review generators (ARGs). However, potential biases and systematic errors may pose significant risks to scientific integrity; understanding the specific capabilities and limitations of state-of-the-art ARGs is essential. We focus on a core reviewing skill that underpins high-quality peer review: detecting faulty research logic. This involves evaluating the internal consistency between a paper's results, interpretations, and claims. We present a fully automated counterfactual evaluation framework that isolates and tests this skill under controlled conditions. Testing a range of ARG approaches, we find that, contrary to expectation, flaws in research logic have no significant effect on their output reviews. Based on our findings, we derive three actionable recommendations for future work and release our counterfactual dataset and evaluation framework publicly.
- Abstract(参考訳): 大規模言語モデル(LLM)は学術的なピアレビューを加速し支援する大きな可能性を秘めており、完全自動レビュージェネレータ(ARG)としての利用が増えている。
しかし、潜在的なバイアスと体系的な誤りは科学的完全性に重大なリスクをもたらす可能性があり、最先端のARGの特定の能力と限界を理解することが不可欠である。
我々は、高品質なピアレビューを支えるコアレビュースキル、すなわち欠陥のある研究ロジックの検出に注力する。
これは、論文の結果、解釈、クレームの間の内部の一貫性を評価することを含む。
本稿では,このスキルを制御条件下で分離し,テストする,完全自動対物評価フレームワークを提案する。
様々なARGアプローチを検証したところ、期待に反して、研究ロジックの欠陥がアウトプットレビューに重大な影響を与えないことが判明した。
本研究の成果から,今後の作業に有効な3つの推奨事項を導出し,実証的データセットと評価フレームワークを一般公開する。
関連論文リスト
- Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。
我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文 参考訳(メタデータ) (2025-06-09T18:37:14Z) - Aspect-Guided Multi-Level Perturbation Analysis of Large Language Models in Automated Peer Review [36.05498398665352]
自動ピアレビューにおいて,大規模言語モデル(LLM)の堅牢性を評価するために,アスペクト誘導多段階摂動フレームワークを提案する。
我々のフレームワークは、ピアレビュープロセスペーパー、レビュー、そして、いくつかの品質面における反論の3つの重要な要素における摂動を探求する。
論文 参考訳(メタデータ) (2025-02-18T03:50:06Z) - ReviewEval: An Evaluation Framework for AI-Generated Reviews [9.35023998408983]
学術研究の増大は、資格のあるレビュアーの不足と相まって、ピアレビューに対する革新的なアプローチを必要としている。
本稿では,AIによるレビューを総合的に評価するフレームワークであるReviewEvalを提案する。
本稿では、AIに基づくピアレビューに不可欠な指標を確立し、学術研究におけるAI生成レビューの信頼性と影響を大幅に向上させる。
論文 参考訳(メタデータ) (2025-02-17T12:22:11Z) - From Adversarial Arms Race to Model-centric Evaluation: Motivating a
Unified Automatic Robustness Evaluation Framework [91.94389491920309]
テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。
既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。
我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-29T14:55:20Z) - Automated scholarly paper review: Concepts, technologies, and challenges [5.431798850623952]
近年、ピアレビュープロセスを支援するために人工知能(AI)が応用されている。
人間の関与により、このような制限は避けられないままである。
論文 参考訳(メタデータ) (2021-11-15T04:44:57Z) - Generating Summaries for Scientific Paper Review [29.12631698162247]
機械学習とNLPにおけるトップの会場への応募の増加は、レビュアーに過剰な負担を課す問題を引き起こしている。
レビュープロセスを支援する自動システムは、問題を改善するための解決策になり得る。
本稿では,学術論文の自動レビュー要約生成について検討する。
論文 参考訳(メタデータ) (2021-09-28T21:43:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。