論文の概要: PRISM: A Multi-Dimensional Benchmark for Evaluating LLM Peer Reviewers
- arxiv url: http://arxiv.org/abs/2605.26730v1
- Date: Tue, 26 May 2026 09:06:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.775906
- Title: PRISM: A Multi-Dimensional Benchmark for Evaluating LLM Peer Reviewers
- Title(参考訳): PRISM: LLMピアレビューアの評価のための多次元ベンチマーク
- Authors: Ngoc Phan Phuoc Loc, Toan Huynh La Viet, Thanh Tran Khanh, Duy A Nguyen, Tuan Anh Nguyen Pham, Thanh Nguyen, Nitesh V. Chawla, Wray Buntine, Kok-Seng Wong, Khoa D. Doan, Binh T. Nguyen,
- Abstract要約: PRISMは,4次元にわたるレビュー品質を評価するベンチマークフレームワークである。
我々は、ICLR、ICML、NeurIPSの階層化されたレビューコーパスにおいて、主要な自動レビュアシステムと人間レビュアをベンチマークする。
単一のシステムは、すべての次元にわたる人間のベースラインのバランスの取れた性能を一度に一致させるものはない。
- 参考スコア(独自算出の注目度): 30.106132038073138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid growth in submissions to machine learning venues has strained the scientific peer-review system and intensified interest in LLM-based automated peer reviewers. However, how good these systems are actually, especially compared to human reviewers at catching scientific gaps, remains poorly understood. In this work, we introduce PRISM (Peer Review Intelligence via Structured Multi-dimensional assessment), a benchmarking framework that evaluates review quality across four dimensions: Depth of Analysis, Novelty Assessment,Flaw Identification & Major Issues Prioritization, and Multi-dimensional Constructiveness. Unlike most existing evaluations based on surface-level metrics like ROUGE and BLEU, or unconstrained LLM-as-a-judge prompting that conflates fluency with rigor, PRISM grounds each dimension in argument mining, retrieval-augmented verification, and consensus-based scoring. We apply PRISM to benchmark five leading automated reviewer systems and human reviewers on a stratified corpus of reviews from ICLR, ICML, and NeurIPS. The results reveal that LLMs can match or beat human reviewers on individual dimensions: comparable depth of analysis, stronger novelty verification, and highly accurate critique prioritization. However, no single system consistently matches the balanced performance of the human baseline across all dimensions at once. Each exhibits a distinct specialization profile with characteristic blind spots -- failure modes that aggregate metrics miss entirely. The implication is that LLM reviewers are best understood as targeted supplements to human review, effective within specific dimensions, but unreliable as standalone replacements. Our demo and key results can be found at https://khanhthanhdev.github.io/prism-page/.
- Abstract(参考訳): 機械学習の会場への応募が急速に増加し、科学的なピアレビューシステムが悪化し、LLMベースの自動ピアレビューシステムへの関心が高まっている。
しかし、これらのシステムが実際にいかに優れているか、特に科学的ギャップを捉えている人間のレビュアーと比較しては、まだ理解されていない。
本研究では,PRISM(Peer Review Intelligence via Structured Multi-dimensional Assessment)という,4次元にわたるレビュー品質を評価するベンチマークフレームワークを紹介した。
ROUGE(英語版)やBLEU(英語版)のような表面レベルのメトリクスに基づく既存の評価や、厳密さとフラレンシを混同させるような制約のないLLM-as-a-judge(英語版)などとは異なり、PRISMは引数マイニング、検索強化検証、コンセンサスに基づくスコアリングの各次元を基礎としている。
我々はPRISMを、ICLR、ICML、NeurIPSの階層化されたレビューコーパス上で、主要な5つの自動レビュアシステムと人間レビュアのベンチマークに応用する。
その結果、LLMは、比較分析の深さ、より強力なノベルティ検証、高度に正確な批評優先順位付けといった、人間のレビュアーを個別の次元で一致または打ち負かすことができることが明らかとなった。
しかしながら、すべての次元にわたる人間のベースラインのバランスの取れた性能に一貫した一貫したシステムは存在しない。
それぞれが特徴的な盲点を持つ、独自の特殊化プロファイルを示す -- メトリクスを集約する障害モードが完全に失われている。
LLMレビュアーは、人間のレビューを対象とするサプリメントとして理解され、特定の次元で有効であるが、スタンドアローンの代替品として信頼できない。
私たちのデモと重要な結果は、https://khanhthanhdev.github.io/prism-page/.comで確認できます。
関連論文リスト
- When Your Reviewer is an LLM: Biases, Divergence, and Prompt Injection Risks in Peer Review [34.067892820832405]
本稿では,学術レビュアーとして大規模言語モデル(LLM)を体系的に評価する。
ICLR 2023とNeurIPS 2022の1,441論文のキュレートされたデータセットを用いて、評価、強度、弱点を越えて、GPT-5-miniをヒトレビュアーに対して評価した。
以上の結果から, LLMは, より弱い論文に対する評価を一貫して向上させつつ, より強いコントリビューションに対する人間の判断と密に一致させることが示唆された。
論文 参考訳(メタデータ) (2025-09-12T00:57:50Z) - Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - Mind the Blind Spots: A Focus-Level Evaluation Framework for LLM Reviews [45.15786181058354]
大きな言語モデル(LLM)は、レビューを自動的にドラフトできる。
LLM生成レビューが信頼できるかどうかを決定するには、体系的な評価が必要である。
注意の正規分布として焦点を運用する焦点レベル評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-02-24T12:05:27Z) - Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - PiCO: Peer Review in LLMs based on the Consistency Optimization [48.48819141999387]
ピアレビュー機構を用いて,大規模言語モデル(LLM)を自動的に測定する。
制約付き最適化問題として定式化し、各LLMの能力とスコアの一貫性を最大化することを目的としている。
我々はPEN, CIN, LISという3つの指標を提案し, ランク付けのギャップを評価する。
論文 参考訳(メタデータ) (2024-02-02T18:49:26Z) - Sentiment Analysis through LLM Negotiations [58.67939611291001]
感情分析の標準的なパラダイムは、単一のLCMに依存して、その決定を1ラウンドで行うことである。
本稿では,感情分析のためのマルチLLMネゴシエーションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-03T12:35:29Z) - Style Over Substance: Evaluation Biases for Large Language Models [17.13064447978519]
本研究では,大規模言語モデル(LLM)とともに,クラウドソースおよびエキスパートアノテータの挙動について検討する。
この結果から, 事実的誤りに対する回答は, 短すぎる, 文法的誤りを含む回答よりも好意的に評価され, 評価過程の偏りが示唆された。
評価面を1つのスコアにマージするのではなく,複数の次元にまたがるマシン生成テキストを独立に評価することを提案する。
論文 参考訳(メタデータ) (2023-07-06T14:42:01Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。