論文の概要: Stop Automating Peer Review Without Rigorous Evaluation
- arxiv url: http://arxiv.org/abs/2605.03202v1
- Date: Mon, 04 May 2026 22:41:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.668183
- Title: Stop Automating Peer Review Without Rigorous Evaluation
- Title(参考訳): 厳格な評価なしにピアレビューを自動化するのをやめる
- Authors: Joachim Baumann, Jiaxin Pei, Sanmi Koyejo, Dirk Hovy,
- Abstract要約: このポジションペーパーは、今日のAIシステムは、論文レビューの作成に使用すべきではない、と論じている。
1)AIレビュアーは、視点の多様性を低下させる論文内および新聞内における過剰な合意の隠れた効果を示す。
ピアレビューの危機に対処するには、ピアレビューの自動化の科学が必要です。
- 参考スコア(独自算出の注目度): 51.53099943385505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models offer a tempting solution to address the peer review crisis. This position paper argues that today's AI systems should not be used to produce paper reviews. We ground this position in an empirical comparison of human- versus AI-generated ICLR 2026 reviews and an evaluation of the effect of automated paper rewriting on different AI reviewers. We identify two critical issues: 1) AI reviewers exhibit a hivemind effect of excessive agreement within and across papers that reduces perspective diversity. 2) AI review scores are trivially gameable through paper laundering: prompting an LLM to rewrite a paper could significantly increase the scores from AI reviewers, demonstrating that LLM reviewers are easy to game through stylistic changes rather than scientific results. However, non-gameability and review diversity are necessary but not sufficient conditions for automation. We argue that addressing the peer review crisis requires a science of peer review automation -- not general-purpose LLMs deployed without rigorous evaluation.
- Abstract(参考訳): 大きな言語モデルは、ピアレビューの危機に対処する誘惑的なソリューションを提供します。
このポジションペーパーは、今日のAIシステムは、論文レビューの作成に使用すべきではないと主張している。
我々は、人間とAIが生成するICLR 2026のレビューと、異なるAIレビュアーに対する自動紙書き換えの効果を実証的に比較した。
私たちは2つの重要な問題を特定します。
1)AIレビュアーは,視点の多様性を低下させる論文の内外における過剰な合意の隠れた効果を示す。
2) 論文の書き直しを LLM に促すことは,AI のレビュアーのスコアを大幅に増加させ,LLM のレビュアーが科学的な結果よりもスタイリスティックな変化を通じて簡単にゲームできることを実証する。
しかし、ゲーム性やレビューの多様性は必要だが、自動化には不十分である。
ピアレビューの危機に対処するには、ピアレビューの自動化という科学が必要です -- 厳格な評価なしにデプロイされる汎用LLMではありません。
関連論文リスト
- When AI reviews science: Can we trust the referee? [73.47745294608072]
私たちは、トレーニングとデータ検索、デスクレビュー、深いレビュー、反論、システムレベルといった、レビューライフサイクル全体のアタックをマップします。
評価スコアに高名度フレーミング, 断定力, 反抗薬効, 文脈中毒の因果効果を分離するために, 2つの高度なLCMベースの審判を用いた。
論文 参考訳(メタデータ) (2026-04-26T08:03:32Z) - Beyond Rating: A Comprehensive Evaluation and Benchmark for AI Reviews [69.66583722746904]
私たちは、AIレビュアーを5次元にわたって評価する総合的な評価フレームワークであるBeyond Ratingを紹介します。
本稿では,専門家の不一致に対応するためのMax-Recall戦略を提案する。
提案したテキスト中心の指標は、特に弱みの議論のリコールであり、評価精度と強く相関している。
論文 参考訳(メタデータ) (2026-04-21T14:21:15Z) - Writing literature reviews with AI: principles, hurdles and some lessons learned [0.15554979526414522]
私たちは、さまざまなレベルのAIアシストで作成された文献レビューを比較します。
6つのバージョンを比較すると、一連の落とし穴が示され、文献をレビューするためにAIアシストを使用する際に必要となる注意点が示唆されている。
全体として、AIはレビューの幅と品質を改善することができるが、時間の増加は期待するほど大きくはない。
論文 参考訳(メタデータ) (2026-03-08T18:02:09Z) - ReviewScore: Misinformed Peer Review Detection with Large Language Models [38.92827930465428]
15.2%の弱点と26.4%の質問が誤記されていることを示し、レビューポイントが誤記されているかどうかを示すReviewScoreを紹介した。
人間の専門家によるReviewScoreデータセットを構築し、LLMがReviewScore評価を自動化する能力をチェックする。
また、前提レベルの事実性を評価することは、弱点レベルの事実性を評価するよりも、はるかに高い合意を示すことを示す。
論文 参考訳(メタデータ) (2025-09-25T22:55:05Z) - REMOR: Automated Peer Review Generation with LLM Reasoning and Multi-Objective Reinforcement Learning [0.0]
我々は,多目的強化学習(REMOR)を用いた推論LLMが,限界を克服できるかを評価する。
REMORは、人間のレビューの平均的な報酬の2倍以上の報酬、非最先端のエージェント的マルチモーダルAIレビューシステムを達成する。
論文 参考訳(メタデータ) (2025-05-16T22:00:49Z) - Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - AI-Driven Review Systems: Evaluating LLMs in Scalable and Bias-Aware Academic Reviews [18.50142644126276]
我々は,人選好のアリーナを用いて,人選好と自動レビューのアライメントを評価する。
我々は、LLMを微調整して人間の好みを予測し、LLM同士の真っ向からの戦いにおいて、どのレビューが好まれるかを予測する。
我々は、公開可能なarXivおよびオープンアクセスのNatureジャーナルのレビューをオンラインで公開し、著者が研究論文をレビューし、改訂し、品質を改善するのに役立つ無料サービスを提供しています。
論文 参考訳(メタデータ) (2024-08-19T19:10:38Z) - Auto-Arena: Automating LLM Evaluations with Agent Peer Battles and Committee Discussions [77.66677127535222]
Auto-ArenaはLLMエージェントを使用した評価プロセス全体を自動化した革新的なフレームワークである。
我々の実験では、Auto-Arenaは92.14%の相関関係を示し、以前の専門家が注釈付けしたベンチマークをすべて上回っている。
論文 参考訳(メタデータ) (2024-05-30T17:19:19Z) - Can We Automate Scientific Reviewing? [89.50052670307434]
我々は、最先端自然言語処理(NLP)モデルを用いて、科学論文の第一パスピアレビューを生成する可能性について論じる。
我々は、機械学習領域で論文のデータセットを収集し、各レビューでカバーされているさまざまなコンテンツに注釈を付け、レビューを生成するために論文を取り込み、ターゲットの要約モデルを訓練する。
総合的な実験結果から、システム生成レビューは、人間によるレビューよりも、論文の多くの側面に触れる傾向にあることが示された。
論文 参考訳(メタデータ) (2021-01-30T07:16:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。