FuguReport

When AI reviews science: Can we trust the referee?

著者 Jialiang Wang, Yuchen Liu, Hang Xu, Kaichun Hu, Shimin Di, Wangze Ni, Linan Yue, Min-Ling Zhang, Kui Ren, Lei Chen
所属 Southeast University / The Hong Kong University of Science and Technology / Zhejiang University
カテゴリ Evaluation / Peer Review Evaluation / Trustworthiness of AI referees, Method / Causal Analysis / Separating framing and contextual bias effects, Application / Scientific Review / AI-assisted science review lifecycle
ライセンス CC BY 4.0

Abstractの概要

本論文は、AI査読のセキュリティと信頼性に焦点を当てた分析を提供し、訓練・データ検索、デスクレビュー、詳細レビュー、リバッタル、およびシステムレベルの脆弱性という査読ライフサイクル全体にわたる攻撃面をマッピングしている。著者らは、この脅威分類体系を、層別化された100件のICLR 2025投稿論文に対する4つの統制実験プローブとして具体化し、Gemini 2.5およびGPT 5.1をAI査読者として評価を行った。実験の結果、査読スコアが権威的手がかり、修辞的スタイル、根拠のないリバッタル、およびバイアスのかかった文脈情報によって変動することが示され、現行のAI査読者が学術的メリット以外の要因に敏感であることが明らかになった。本論文はまた、段階ごとの防御戦略を提案し、信頼性の高いAI査読に向けた今後の研究方向を概説している。

新規性

本研究の独自の貢献は、AI査読に対するライフサイクル全体にわたる脅威モデルと、特定の査読段階に紐づけられた定量的な因果推論型プローブの組み合わせにある。プロンプトインジェクションや汎用的なLLM-as-judge の脆弱性のみを分析するのではなく、権威フレーミング、主張の強さ、リバッタルにおける迎合性、文脈汚染といった複数の代表的な攻撃ベクトルを、実際の学会投稿論文と2つの先進的な査読モデルを用いて評価している。

成果

実験により測定可能なスコア歪みが示された。高権威フレーミングはスコアを+0.21〜+0.29上昇させた一方、低権威フレーミングは-0.59〜-0.85とより大きな低下を引き起こした。慎重な表現はオリジナルに対して-0.26〜-0.52のペナルティを受け、根拠のない自信に満ちたリバッタルは両モデルで+0.42〜+0.65のスコア上昇をもたらした。文脈汚染の効果はモデルにより異なり、Gemini 2.5はポジティブフレーミングに影響を受け(+0.16)、GPT 5.1はネガティブフレーミングに影響を受けた(-0.31)ことから、AI査読者の評価が操作された情報環境に対して透過的であることが確認された。

論文の注目点

  1. 本論文は、訓練・データ検索、デスクレビュー、詳細レビュー、リバッタル、システムレベルの脆弱性にわたるAI査読への攻撃のエンドツーエンド分類体系を提案し、メカニズム、攻撃者の前提条件、隠蔽性、難易度の分析を行っている。
  2. ICLR 2025の100件の論文において、Gemini 2.5とGPT 5.1の両方が権威バイアス(低権威ペナルティが高権威ブーストを上回る非対称性)、慎重な科学的表現への体系的ペナルティ、および根拠のない断定的なリバッタル後の有意なスコア上昇を示した。
  3. バイアスのかかった検索文脈はモデル依存的に査読スコアを変動させ、Gemini 2.5はポジティブフレーミングに影響を受けた一方、GPT 5.1はネガティブフレーミングによりペナルティを受けたことから、検索や知識ベースの汚染がAI支援の科学的評価に微妙な影響を及ぼしうることが実証された。

参考リンク

このページはGPT-5、Claude Opus 4、Gemini 3、Gemini 3.1 Flash Image 及びその上位バージョンなどの生成AIを用いて作成されています。内容の保証は一切できません。