論文の概要: When AI reviews science: Can we trust the referee?
- arxiv url: http://arxiv.org/abs/2604.23593v1
- Date: Sun, 26 Apr 2026 08:03:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.452065
- Title: When AI reviews science: Can we trust the referee?
- Title(参考訳): AIが科学をレビューするとき:レフェリーを信用できるか?
- Authors: Jialiang Wang, Yuchen Liu, Hang Xu, Kaichun Hu, Shimin Di, Wangze Ni, Linan Yue, Min-Ling Zhang, Kui Ren, Lei Chen,
- Abstract要約: 私たちは、トレーニングとデータ検索、デスクレビュー、深いレビュー、反論、システムレベルといった、レビューライフサイクル全体のアタックをマップします。
評価スコアに高名度フレーミング, 断定力, 反抗薬効, 文脈中毒の因果効果を分離するために, 2つの高度なLCMベースの審判を用いた。
- 参考スコア(独自算出の注目度): 73.47745294608072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The volume of scientific submissions continues to climb, outpacing the capacity of qualified human referees and stretching editorial timelines. At the same time, modern large language models (LLMs) offer impressive capabilities in summarization, fact checking, and literature triage, making the integration of AI into peer review increasingly attractive -- and, in practice, unavoidable. Yet early deployments and informal adoption have exposed acute failure modes. Recent incidents have revealed that hidden prompt injections embedded in manuscripts can steer LLM-generated reviews toward unjustifiably positive judgments. Complementary studies have also demonstrated brittleness to adversarial phrasing, authority and length biases, and hallucinated claims. These episodes raise a central question for scholarly communication: when AI reviews science, can we trust the AI referee? This paper provides a security- and reliability-centered analysis of AI peer review. We map attacks across the review lifecycle -- training and data retrieval, desk review, deep review, rebuttal, and system-level. We instantiate this taxonomy with four treatment-control probes on a stratified set of ICLR 2025 submissions, using two advanced LLM-based referees to isolate the causal effects of prestige framing, assertion strength, rebuttal sycophancy, and contextual poisoning on review scores. Together, this taxonomy and experimental audit provide an evidence-based baseline for assessing and tracking the reliability of AI peer review and highlight concrete failure points to guide targeted, testable mitigations.
- Abstract(参考訳): 科学的提出の量は増え続けており、適格な人間審判の能力を上回っ、編集スケジュールを延長している。
同時に、現代の大規模言語モデル(LLM)は、要約、ファクトチェック、文学のトリアージにおいて印象的な機能を提供する。
しかし、初期のデプロイメントと非公式な採用によって、急性障害モードが明らかにされている。
最近の事例では、原稿に埋め込まれた隠されたプロンプトインジェクションが、LLM生成レビューを不当に肯定的な判断に導いてくれることが判明している。
補完的な研究は、敵の言葉遣い、権威と長さの偏見、および幻覚的主張に対する脆さも示している。
これらのエピソードは学術的なコミュニケーションの中心的な疑問を提起する。AIが科学をレビューするとき、私たちはAIレフェリーを信頼できますか?
本稿では,AIピアレビューのセキュリティと信頼性を中心とした分析を行う。
私たちは、トレーニングとデータ検索、デスクレビュー、深いレビュー、反論、システムレベルといった、レビューライフサイクル全体のアタックをマップします。
我々は,この分類を,階層化されたICLR 2025提出の4つの治療制御プローブを用いてインスタンス化し,2つの高度なLCMベースの審判を用いて,評価スコアに対する評価フレーミング,アサーション強度,反感神経症状,文脈中毒の因果的影響を分離した。
この分類学と実験的な監査は、AIピアレビューの信頼性を評価し、追跡するためのエビデンスベースのベースラインを提供し、ターゲットでテスト可能な緩和をガイドするための具体的な障害点を強調します。
関連論文リスト
- Beyond Rating: A Comprehensive Evaluation and Benchmark for AI Reviews [69.66583722746904]
私たちは、AIレビュアーを5次元にわたって評価する総合的な評価フレームワークであるBeyond Ratingを紹介します。
本稿では,専門家の不一致に対応するためのMax-Recall戦略を提案する。
提案したテキスト中心の指標は、特に弱みの議論のリコールであり、評価精度と強く相関している。
論文 参考訳(メタデータ) (2026-04-21T14:21:15Z) - BadScientist: Can a Research Agent Write Convincing but Unsound Papers that Fool LLM Reviewers? [21.78901120638025]
製造指向の紙生成エージェントがマルチモデルLCMレビューシステムを欺くことができるかどうかを考察する。
我々のジェネレータは、実際の実験を必要としないプレゼンテーション操作戦略を採用している。
健全な集約数学にもかかわらず、整合性検査は体系的に失敗する。
論文 参考訳(メタデータ) (2025-10-20T18:37:11Z) - ReviewGuard: Enhancing Deficient Peer Review Detection via LLM-Driven Data Augmentation [3.9199635838637072]
ReviewGuardは、欠陥レビューを検出して分類する自動化システムである。
最終コーパスは6,634枚、実際のレビュー24,657枚、合成レビュー46,438枚である。
不十分なレビューでは、評価スコアの低下、自己報告の信頼性の向上、構造的な複雑さの低減、ネガティブな感情の比率の向上が示されています。
論文 参考訳(メタデータ) (2025-10-18T15:45:26Z) - AI and the Future of Academic Peer Review [0.1622854284766506]
大規模言語モデル(LLM)は、ジャーナリスト、資金提供者、個人レビュアーによってピアレビューパイプラインで試験されている。
初期の研究は、AIアシストが人間に匹敵する品質のレビューを作成できることを示唆している。
教師付きLDM支援は, 人間の判断を損なうことなく, エラー検出, タイムライン, レビューヤの作業量を改善することができることを示す。
論文 参考訳(メタデータ) (2025-09-17T17:27:12Z) - When Your Reviewer is an LLM: Biases, Divergence, and Prompt Injection Risks in Peer Review [34.067892820832405]
本稿では,学術レビュアーとして大規模言語モデル(LLM)を体系的に評価する。
ICLR 2023とNeurIPS 2022の1,441論文のキュレートされたデータセットを用いて、評価、強度、弱点を越えて、GPT-5-miniをヒトレビュアーに対して評価した。
以上の結果から, LLMは, より弱い論文に対する評価を一貫して向上させつつ, より強いコントリビューションに対する人間の判断と密に一致させることが示唆された。
論文 参考訳(メタデータ) (2025-09-12T00:57:50Z) - Automatic Reviewers Fail to Detect Faulty Reasoning in Research Papers: A New Counterfactual Evaluation Framework [55.078301794183496]
我々は、高品質なピアレビューを支えるコアレビュースキル、すなわち欠陥のある研究ロジックの検出に注力する。
これは、論文の結果、解釈、クレームの間の内部の一貫性を評価することを含む。
本稿では,このスキルを制御条件下で分離し,テストする,完全自動対物評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-29T08:48:00Z) - CoCoNUTS: Concentrating on Content while Neglecting Uninformative Textual Styles for AI-Generated Peer Review Detection [60.52240468810558]
我々は、AI生成ピアレビューの詳細なデータセットの上に構築されたコンテンツ指向ベンチマークであるCoCoNUTSを紹介する。
また、マルチタスク学習フレームワークを介してAIレビュー検出を行うCoCoDetを開発し、レビューコンテンツにおけるAIのより正確で堅牢な検出を実現する。
論文 参考訳(メタデータ) (2025-08-28T06:03:11Z) - Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。