論文の概要: LLM-as-a-Reviewer: Benchmarking Their Ability, Divergence, and Prompt Injection Resistance as Paper Reviewers
- arxiv url: http://arxiv.org/abs/2605.25415v1
- Date: Mon, 25 May 2026 04:32:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.285909
- Title: LLM-as-a-Reviewer: Benchmarking Their Ability, Divergence, and Prompt Injection Resistance as Paper Reviewers
- Title(参考訳): LLM-as-a-Reviewer: ペーパーレビュアーとしての能力, 多様性, プロンプトインジェクション抵抗のベンチマーク
- Authors: Lingyao Li, Junjie Xiong, Changjia Zhu, Runlong Yu, Chen Chen, Junyu Wang, Renkai Ma, Zhicong Lu,
- Abstract要約: 大規模言語モデル(LLM)は、学術的ピアレビューでますます使われている。
898 論文に LLM-as-a-Reviewer のベンチマークを示す。
- 参考スコア(独自算出の注目度): 42.116161679682236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used in academic peer review, yet their reliability, alignment with human judgment, and robustness to adversarial attacks remain poorly understood. We present a systematic benchmark of LLM-as-a-Reviewer on 898 papers stratified from NeurIPS and ICLR, evaluating 12 LLMs along three axes: rating calibration, divergence from human reviewers, and resistance to prompt injection embedded via an invisible font-mapping attack. We find that LLMs systematically overrate weaker submissions and diverge from humans in topical emphasis, under-flagging Clarity and over-flagging Reproducibility, while producing reviews two to three times longer with lower lexical diversity and a more standardized vocabulary. Prompt injection remains highly effective. Simple hidden instructions can promote low-scoring papers to acceptance-level ratings in a substantial fraction of cases, with effectiveness varying sharply across model families. While LLMs offer utility in structuring evaluations, their integration into peer review requires safeguards against both intrinsic biases and adversarial risks.
- Abstract(参考訳): 大規模言語モデル (LLM) は、学術的ピアレビューにおいてますます使われているが、信頼性、人的判断との整合性、敵の攻撃に対する堅牢性はよく分かっていない。
我々は,NeurIPS と ICLR から成層化した 898 枚の LLM-as-a-Reviewer の系統的ベンチマークを行い,評価キャリブレーション,人間レビュアーからの偏差,目に見えないフォント・マッピング・アタックによるインジェクションへの抵抗の3軸に沿って 12 個の LLM の評価を行った。
また,LLMは,低語彙の多様性とより標準化された語彙で2~3倍のレビューを作成しながら,局所的強調,過度な明瞭度,過度な再現性で,体系的に弱い提案を過大評価し,人間から逸脱することを見出した。
プロンプト注射は依然として有効である。
単純な隠蔽命令は、モデルファミリ間で効果が急激に変化し、比較的少数のケースで、ロースコアの論文を受入レベルの評価に昇格させる。
LLMは評価の構造化に有用であるが、ピアレビューへの統合には本質的バイアスと敵対的リスクの両方に対する保護が必要である。
関連論文リスト
- LLM-REVal: Can We Trust LLM Reviewers Yet? [70.58742663985652]
大規模言語モデル(LLM)は研究者に、学術的なワークフローに広く組み込むよう刺激を与えている。
本研究は、LLMのピアレビューと研究プロセスへの深い統合が学術的公正性にどのように影響するかに焦点を当てる。
論文 参考訳(メタデータ) (2025-10-14T10:30:20Z) - When Your Reviewer is an LLM: Biases, Divergence, and Prompt Injection Risks in Peer Review [34.067892820832405]
本稿では,学術レビュアーとして大規模言語モデル(LLM)を体系的に評価する。
ICLR 2023とNeurIPS 2022の1,441論文のキュレートされたデータセットを用いて、評価、強度、弱点を越えて、GPT-5-miniをヒトレビュアーに対して評価した。
以上の結果から, LLMは, より弱い論文に対する評価を一貫して向上させつつ, より強いコントリビューションに対する人間の判断と密に一致させることが示唆された。
論文 参考訳(メタデータ) (2025-09-12T00:57:50Z) - Breaking the Reviewer: Assessing the Vulnerability of Large Language Models in Automated Peer Review Under Textual Adversarial Attacks [46.94841402358489]
本稿では,大規模言語モデル (LLM) が,敵対的攻撃の存在下で自動レビュアーとして使用されることのロバスト性について検討する。
テキスト操作はLLM評価を歪ませる可能性があるため,本評価は重大な脆弱性を明らかにする。
我々の発見は、学術コミュニケーションの完全性よりも、AIの強化を確実にするために、敵対的リスクに対処することの重要性を強調した。
論文 参考訳(メタデータ) (2025-06-08T16:57:38Z) - Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。