論文の概要: PRAIB: Peer Review AI Benchmark of Behaviour of LLM-Assisted Reviewing
- arxiv url: http://arxiv.org/abs/2605.29815v1
- Date: Thu, 28 May 2026 11:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.216778
- Title: PRAIB: Peer Review AI Benchmark of Behaviour of LLM-Assisted Reviewing
- Title(参考訳): PRAIB: LLM支援レビューの行動に関するAIベンチマーク
- Authors: Krzysztof Żurawicki, Julia Farganus, Arkadiusz Gaweł, Mateusz Bystroński, Tomasz Jan Kajdanowicz,
- Abstract要約: Peer Review AI Benchmark (PRAIB)は、レビューの具体性、スタイル、エンゲージメントの振る舞いを測定する、徹底的に定義されたメトリクスで構成されるフレームワークである。
我々は、1000 ICLRおよびNeurIPSの論文に対して、5つのプロプライエタリおよびオープンソースモデルによって生成される11,000のレビューのデータセットを活用する大規模な実証的研究を行う。
分析の結果,人的レビュアーのフィードバックから生成したレビューが著しく逸脱していることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing number of submitted papers has motivated the exploration of Large Language Models (LLMs) as a means to support and augment the peer review process, particularly in terms of improving its speed and scalability. Yet, it remains unknown whether LLMs engage with scientific manuscripts in the same manner as human reviewers, or whether they merely produce review-looking text. To address this, we introduce the Peer Review AI Benchmark (PRAIB), a novel framework comprising thoroughly defined metrics that measure review specificity, style, and behavior of engagement. To complement the PRAIB framework, we conduct a large-scale empirical study leveraging a dataset of 11,000 reviews generated by five proprietary and open-source models for 1,000 ICLR and NeurIPS papers. Spanning the 2021--2025 period, these machine-generated reviews are compared against original human feedback across diverse prompting strategies to identify systematic behavioral divergences. Our analysis reveals that the generated reviews diverge significantly from feedback provided by human reviewers: LLM ratings are less variable, positively biased, and overconfident, and their cross-reference patterns are model-dependent and distinct from human norms. Furthermore, when evaluated through PRAIB, we observe that LLMs tend to generate longer, more complex reviews, yet frequently overlook the atomic weaknesses noted by human reviewers. By characterizing where and how LLMs reviewing behavior departs from human norms, PRAIB provides the community with a diagnostic tool for identifying which aspects of the review process LLMs can reliably support today and which require further development before deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)の探索は、特にスピードとスケーラビリティの向上の観点から、ピアレビュープロセスのサポートと強化の手段として、提出された論文が増えている。
しかし、LLMが人間のレビュアーと同じ方法で科学的写本を扱うのか、あるいは単にレビュー風のテキストを生成するだけなのかは、まだ不明である。
これを解決するために、レビューの特異性、スタイル、エンゲージメントの振る舞いを測定するために、完全に定義されたメトリクスからなる新しいフレームワークであるPeer Review AI Benchmark(PRAIB)を紹介します。
PRAIBフレームワークを補完するために、1000 ICLRおよびNeurIPSの5つのプロプライエタリおよびオープンソースモデルによって生成される11,000のレビューのデータセットを活用する大規模な実証的研究を行った。
2021-2025年の間、これらの機械によるレビューは、組織的な振る舞いの相違を識別するための多様なプロンプト戦略を通して、オリジナルの人間のフィードバックと比較される。
LLM評価は変動が低く、正の偏りがあり、過信であり、それらの相互参照パターンはモデルに依存しており、人間の規範とは異なっている。
さらに、PRAIBを用いて評価すると、LLMはより長く、より複雑なレビューを生成する傾向にあるが、人間レビュアーが指摘するアトミックな弱点をしばしば見落としている。
PRAIBは、レビュープロセスのどの側面が現在確実にサポートでき、デプロイ前にさらなる開発を必要とするかを識別する診断ツールをコミュニティに提供する。
関連論文リスト
- Reviewing the Reviewer: Elevating Peer Review Quality through LLM-Guided Feedback [75.31379834079648]
レビューを論証セグメントに分解するLLM駆動型フレームワークを提案する。
遅延思考と特異性をラベル付けした1,309文のデータセットであるLazyReviewPlusもリリースしました。
論文 参考訳(メタデータ) (2026-01-17T20:32:18Z) - Unveiling the Merits and Defects of LLMs in Automatic Review Generation for Scientific Papers [4.455306283717651]
科学論文の急増は、従来のピアレビュープロセスに緊張を増している。
本稿では,意味的類似性分析と構造化知識グラフメトリクスを統合した総合評価フレームワークを提案する。
ICLRとNeurIPSによる1,683の論文と6,495の専門家レビューのベンチマークを数年間にわたって構築し、5つの大きな言語モデルを用いてレビューを生成する。
論文 参考訳(メタデータ) (2025-09-13T19:15:22Z) - When Your Reviewer is an LLM: Biases, Divergence, and Prompt Injection Risks in Peer Review [34.067892820832405]
本稿では,学術レビュアーとして大規模言語モデル(LLM)を体系的に評価する。
ICLR 2023とNeurIPS 2022の1,441論文のキュレートされたデータセットを用いて、評価、強度、弱点を越えて、GPT-5-miniをヒトレビュアーに対して評価した。
以上の結果から, LLMは, より弱い論文に対する評価を一貫して向上させつつ, より強いコントリビューションに対する人間の判断と密に一致させることが示唆された。
論文 参考訳(メタデータ) (2025-09-12T00:57:50Z) - Beyond "Not Novel Enough": Enriching Scholarly Critique with LLM-Assisted Feedback [81.0031690510116]
本稿では,3段階を通して専門家レビューアの動作をモデル化する,自動ノベルティ評価のための構造化アプローチを提案する。
本手法は,人文のノベルティレビューを大規模に分析した結果から得られたものである。
182 ICLR 2025 の提出で評価されたこの手法は、人間の推論と86.5%の一致と、新規性の結論に関する75.3%の合意を達成している。
論文 参考訳(メタデータ) (2025-08-14T16:18:37Z) - ReviewAgents: Bridging the Gap Between Human and AI-Generated Paper Reviews [24.566487721847597]
学術論文レビュー(Academic paper review)は、研究コミュニティにおける批判的だが時間を要する課題である。
学術出版物の増加に伴い、レビュープロセスの自動化が大きな課題となっている。
大規模言語モデル(LLM)を利用して学術論文レビューを生成するフレームワークであるReviewAgentsを提案する。
論文 参考訳(メタデータ) (2025-03-11T14:56:58Z) - Towards Understanding the Robustness of LLM-based Evaluations under Perturbations [9.944512689015998]
大言語モデル(LLM)は、要約やダイアログベースのタスクにおいて、非標準化メトリクスの自動評価器として機能する。
人間の判断に比較して,LLMが品質評価指標としていかに優れているかを検討するために,複数のプロンプト戦略にまたがる実験を行った。
論文 参考訳(メタデータ) (2024-12-12T13:31:58Z) - Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。