論文の概要: On the limits and opportunities of AI reviewers: Reviewing the reviews of Nature-family papers with 45 expert scientists
- arxiv url: http://arxiv.org/abs/2605.20668v1
- Date: Wed, 20 May 2026 03:33:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.463254
- Title: On the limits and opportunities of AI reviewers: Reviewing the reviews of Nature-family papers with 45 expert scientists
- Title(参考訳): AIレビュアーの限界と可能性:45人の専門家によるネイチャーファミリー論文のレビュー
- Authors: Seungone Kim, Dongkeun Yoon, Kiril Gashteovski, Juyoung Suk, Jinheon Baek, Pranjal Aggarwal, Ian Wu, Viktor Zaverkin, Spase Petkoski, Daniel R. Schrider, Ilija Dukovski, Francesco Santini, Biljana Mitreska, Yong Jeong, Kyeongha Kwon, Young Min Sim, Dragana Manasova, Arthur Porto, Biljana Mojsoska, Makoto Takamoto, Marko Shuntov, Ruoqi Liu, Hyunjoo Jenny Lee, Niyazi Ulas Dinç, Yehhyun Jo, Sunkyu Han, Chungwoo Lee, Huishan Li, Esther H. R. Tsai, Ergun Simsek, Khushboo Shafi, Yeonseung Chung, Jihye Park, Aleksandar Shulevski, Henrik Christiansen, Yoosang Son, Elly Knight, Amanda Montoya, Jeongyoun Ahn, Christian Langkammer, Heera Moon, Changwon Yoon, Nikola Stikov, Mooseok Jang, Edward Choi, Junhan Kim, Yeon Sik Jung, Woo Youn Kim, Jae Kyoung Kim, Ishraq Md Anjum, Hyun Uk Kim, Drew Bridges, Carolin Lawrence, Xiang Yue, Alice Oh, Akari Asai, Sean Welleck, Graham Neubig,
- Abstract要約: 多くの科学者は、AIレビュアーを研究を評価する専門知識のない確率的システムと見なしている。
既存のAIレビュアーの評価では、評決が人間の評決に合致するかどうかに焦点が当てられている。
- 参考スコア(独自算出の注目度): 113.03797263688519
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the advancement of AI capabilities, AI reviewers are beginning to be deployed in scientific peer review, yet their capability and credibility remain in question: many scientists simply view them as probabilistic systems without the expertise to evaluate research, while other researchers are more optimistic about their readiness without concrete evidence. Understanding what AI reviewers do well, where they fall short, and what challenges remain is essential. However, existing evaluations of AI reviewers have focused on whether their verdicts match human verdicts (e.g., score alignment, acceptance prediction), which is insufficient to characterize their capabilities and limits. In this paper, we close this gap through a large-scale expert annotation study, in which 45 domain scientists in Physical, Biological, and Health Sciences spent 469 hours rating 2,960 individual criticisms (each targeting one specific aspect of a paper) from human-written and AI-generated reviews of 82 Nature-family papers on correctness, significance, and sufficiency of evidence. On a composite of all three dimensions, a reviewing agent powered by GPT-5.2 scores above each paper's top-rated human reviewer (60.0% vs. 48.2%, p = 0.009), while all three AI reviewers (including Gemini 3.0 Pro and Claude Opus 4.5) exceed the lowest-rated human across every dimension. AI reviewers' accurate criticisms are also more often rated significant and well-evidenced, and surface a distinct 26% of issues no human raises. However, AI reviewers overlap far more than humans do (21% vs. 3% for cross-reviewer pairs), and exhibit 16 recurring weaknesses humans do not share, such as limited subfield knowledge, lack of long context management over multiple files, and overly critical stance on minor issues. Overall, our results position current AI reviewers as complements to, not substitutes for, human reviewers.
- Abstract(参考訳): AI能力の進歩に伴い、AIレビュアーは科学的なピアレビューに展開され始めているが、その能力と信頼性は疑問視されている。
AIレビュアーがうまくやっていること、どこが不足しているか、どんな課題が残っているかを理解することが不可欠です。
しかし、既存のAIレビュアーの評価では、評定が人間の評定(スコアアライメント、受理予測など)に合致するかどうかに焦点が当てられているため、その能力と限界を特徴づけるには不十分である。
本稿では,このギャップを,身体・生物・健康科学の45人のドメイン科学者が,人文・AIによる82の自然家論文の正当性,意義,証拠の十分性に関するレビューから,2,960件の個人的批判(それぞれ1つの特定の側面を対象とする)を469時間にわたって評価した,大規模な専門家注釈研究を通じて解決する。
すべての3次元の合成において、GPT-5.2を動力とするレビューエージェントは、各論文の上位の人間レビュアー(60.0%対48.2%、p = 0.009)より上であり、一方3つのAIレビュアー(ジェミニ3.0 Proとクロードオプス4.5を含む)は、各次元で最下位の人間を上回っている。
AIレビュアーの正確な批判は、しばしば重要かつ十分に評価され、人間が上げない問題の26%を表面化している。
しかし、AIレビュアーは人間よりもはるかにオーバーラップし(21%対クロスリビューアペア)、限られたサブフィールド知識、複数のファイルに対する長期のコンテキスト管理の欠如、マイナーな問題に対する過度に批判的なスタンスなど、人間が共有しない16の繰り返しの弱点を示す。
全体として、我々の結果は、現在のAIレビュアーを、人間のレビュアーの代替ではなく、補完するものとして位置づけている。
関連論文リスト
- To Trust or Not to Trust: Authors' Response to AI-based Reviews [1.0435741631709405]
本稿では,AIによる補助的レビューにおける著者の使用と認識に関する2つの独立したパイロット研究の成果を報告する。
AIが教師あるいは著者が管理するツールとしてフレーム化されたとき、将来の使用に対する作者のサポートが最も強かった。
論文 参考訳(メタデータ) (2026-05-15T20:43:55Z) - Stop Automating Peer Review Without Rigorous Evaluation [51.53099943385505]
このポジションペーパーは、今日のAIシステムは、論文レビューの作成に使用すべきではない、と論じている。
1)AIレビュアーは、視点の多様性を低下させる論文内および新聞内における過剰な合意の隠れた効果を示す。
ピアレビューの危機に対処するには、ピアレビューの自動化の科学が必要です。
論文 参考訳(メタデータ) (2026-05-04T22:41:04Z) - When AI reviews science: Can we trust the referee? [73.47745294608072]
私たちは、トレーニングとデータ検索、デスクレビュー、深いレビュー、反論、システムレベルといった、レビューライフサイクル全体のアタックをマップします。
評価スコアに高名度フレーミング, 断定力, 反抗薬効, 文脈中毒の因果効果を分離するために, 2つの高度なLCMベースの審判を用いた。
論文 参考訳(メタデータ) (2026-04-26T08:03:32Z) - AI-Assisted Peer Review at Scale: The AAAI-26 AI Review Pilot [45.90272517740283]
本稿では,AI支援ピアレビューの大規模展開について報告する。
AAAI-26のすべてのメイントラックは、最先端のシステムから明確に特定されたAIレビューを受け取りました。
論文 参考訳(メタデータ) (2026-04-15T14:51:07Z) - Everyone prefers human writers, including AI [0.0]
我々は,Raymond Queneaus Exercises Style (1947) を用いて帰属バイアスを測定する実験を行った。
人間は+13.7ポイント(pp)バイアス(コーエンのh = 0.28, 95%CI: 0.21-0.34)を示し、AIモデルは+34.3ポイントバイアス(h = 0.70, 95%CI: 0.65-0.76)を示した。
論文 参考訳(メタデータ) (2025-10-09T21:33:30Z) - AI Debate Aids Assessment of Controversial Claims [73.8907110799657]
我々は、AI論争が、議論の的になっている事実性主張の側面に対立する2つのAIシステムを議論させることで、偏見のある裁判官を真実に導くことができるかどうかを調査する。
研究Iでは、議論は人間の判断精度と信頼性の校正を継続的に改善し、コンサルタントを上回ります。
研究IIでは、人間のような人格を持つAI裁判官は、人格を持たない人格(70.1%)やデフォルトのAI裁判官(69.8%)よりも高い精度(78.5%)を達成する。
これらの調査結果は、AIの議論が、競争対象ドメインにおけるスケーラブルでバイアス耐性のある監視への有望な道であることを示している。
論文 参考訳(メタデータ) (2025-06-02T19:01:53Z) - The Great AI Witch Hunt: Reviewers Perception and (Mis)Conception of Generative AI in Research Writing [36.188062803005515]
研究執筆におけるジェネレーティブAI(GenAI)の利用は急速に増加している。
ピアレビュアーがAIによる増補された写本をどう認識するか、それとも誤認しているかは明らかでない。
我々の研究結果は、AIによって強化された文章は可読性、言語多様性、情報性を改善するが、しばしば研究の詳細や著者からの反射的な洞察を欠いていることを示唆している。
論文 参考訳(メタデータ) (2024-06-27T02:38:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。