論文の概要: CoCoReviewBench: A Completeness- and Correctness-Oriented Benchmark for AI Reviewers
- arxiv url: http://arxiv.org/abs/2605.07905v1
- Date: Fri, 08 May 2026 15:44:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.17217
- Title: CoCoReviewBench: A Completeness- and Correctness-Oriented Benchmark for AI Reviewers
- Title(参考訳): CoCoReviewBench - AIレビュアーのための完全性と正確性指向ベンチマーク
- Authors: Hexuan Deng, Xiaopeng Ke, Yichen Li, Ruina Hu, Dehao Huang, Derek F. Wong, Yue Wang, Xuebo Liu, Min Zhang,
- Abstract要約: カテゴリ固有のベンチマークサブセットを構築し、人間のレビューが欠落している場合に評価をスキップし、完全性を強化します。
また、専門家のアノテーションとしてレビュアー-著者-レビューの議論を活用し、正確性を強化するために信頼できないレビューをフィルタリングします。
CoCoReviewBenchは、ICLRとNeurIPSから3,900の論文をキュレーションして、AIレビュアーの信頼性ときめ細かい評価を可能にする。
- 参考スコア(独自算出の注目度): 39.97153044457166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the rapid development of AI reviewers, evaluating such systems remains challenging: metrics favor overlap with human reviews over correctness. However, since human reviews often cover only a subset of salient issues and sometimes contain mistakes, they are unreliable as gold references. To address this, we build category-specific benchmark subsets and skip evaluation when the corresponding human reviews are missing to strengthen Completeness. We also leverage reviewer--author--meta-review discussions as expert annotations and filter unreliable reviews accordingly to strengthen Correctness. Finally, we introduce CoCoReviewBench, which curates 3,900 papers from ICLR and NeurIPS to enable reliable and fine-grained evaluation of AI reviewers. Analysis shows that AI reviewers remain limited in correctness and are prone to hallucinations, and highlights reasoning models as more effective reviewers, motivating further directions for improving AI reviewers. Benchmarks and models are available at https://github.com/hexuandeng/CoCoReviewBench.
- Abstract(参考訳): AIレビュアーの急速な開発にもかかわらず、このようなシステムの評価は依然として困難である。
しかしながら、人間によるレビューは問題の一部のみをカバーし、時に誤りを含むため、金の参照として信頼できない。
これを解決するために、カテゴリ固有のベンチマークサブセットを構築し、対応する人間レビューが欠落している場合に評価をスキップし、完全性を強化する。
また、専門家のアノテーションとしてレビュアー-著者-レビューの議論を活用し、正確性を強化するために信頼できないレビューをフィルタリングします。
最後に、AIレビュアーの信頼性ときめ細かい評価を可能にするために、ICLRとNeurIPSから3,900の論文をキュレートするCoCoReviewBenchを紹介する。
分析によると、AIレビュアーは正当性に制限を受けており、幻覚を起こす傾向があり、推論モデルをより効果的なレビュアーとして強調し、AIレビュアーを改善するためのさらなる方向性を動機付けている。
ベンチマークとモデルはhttps://github.com/hexuandeng/CoCoReviewBench.comで公開されている。
関連論文リスト
- When AI reviews science: Can we trust the referee? [73.47745294608072]
私たちは、トレーニングとデータ検索、デスクレビュー、深いレビュー、反論、システムレベルといった、レビューライフサイクル全体のアタックをマップします。
評価スコアに高名度フレーミング, 断定力, 反抗薬効, 文脈中毒の因果効果を分離するために, 2つの高度なLCMベースの審判を用いた。
論文 参考訳(メタデータ) (2026-04-26T08:03:32Z) - Beyond Rating: A Comprehensive Evaluation and Benchmark for AI Reviews [69.66583722746904]
私たちは、AIレビュアーを5次元にわたって評価する総合的な評価フレームワークであるBeyond Ratingを紹介します。
本稿では,専門家の不一致に対応するためのMax-Recall戦略を提案する。
提案したテキスト中心の指標は、特に弱みの議論のリコールであり、評価精度と強く相関している。
論文 参考訳(メタデータ) (2026-04-21T14:21:15Z) - ReviewScore: Misinformed Peer Review Detection with Large Language Models [38.92827930465428]
15.2%の弱点と26.4%の質問が誤記されていることを示し、レビューポイントが誤記されているかどうかを示すReviewScoreを紹介した。
人間の専門家によるReviewScoreデータセットを構築し、LLMがReviewScore評価を自動化する能力をチェックする。
また、前提レベルの事実性を評価することは、弱点レベルの事実性を評価するよりも、はるかに高い合意を示すことを示す。
論文 参考訳(メタデータ) (2025-09-25T22:55:05Z) - The Good, the Bad and the Constructive: Automatically Measuring Peer Review's Utility for Authors [45.98233565214142]
我々は、著者のユーティリティを駆動するレビューコメントの4つの重要な側面を識別する:アクションビリティ、グラウンディングと特異性、検証可能性、ヘルプフルネス。
人間のラベル付きレビューコメント1,430件を収集し、トレーニング目的のために10万件のラベル付きコメントを合成してデータをスケールします。
これらの側面に対するレビューコメントの評価と合理性を生成するための微調整モデルをベンチマークする。
論文 参考訳(メタデータ) (2025-08-31T14:19:07Z) - Can LLM feedback enhance review quality? A randomized study of 20K reviews at ICLR 2025 [115.86204862475864]
Review Feedback Agentは、あいまいなコメント、コンテンツの誤解、レビュアーへの専門的でない発言に対する自動的なフィードバックを提供する。
ICLR 2025で大規模なランダム化制御研究として実装された。
フィードバックを受けたレビュアーの27%がレビューを更新し、エージェントからの12,000以上のフィードバック提案がレビュアーによって取り入れられた。
論文 参考訳(メタデータ) (2025-04-13T22:01:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。