Fugu-MT 論文翻訳(概要): CoCoReviewBench: A Completeness- and Correctness-Oriented Benchmark for AI Reviewers

論文の概要: CoCoReviewBench: A Completeness- and Correctness-Oriented Benchmark for AI Reviewers

arxiv url: http://arxiv.org/abs/2605.07905v1
Date: Fri, 08 May 2026 15:44:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-11 19:43:39.17217
Title: CoCoReviewBench: A Completeness- and Correctness-Oriented Benchmark for AI Reviewers
Title（参考訳）: CoCoReviewBench - AIレビュアーのための完全性と正確性指向ベンチマーク
Authors: Hexuan Deng, Xiaopeng Ke, Yichen Li, Ruina Hu, Dehao Huang, Derek F. Wong, Yue Wang, Xuebo Liu, Min Zhang,
Abstract要約: カテゴリ固有のベンチマークサブセットを構築し、人間のレビューが欠落している場合に評価をスキップし、完全性を強化します。また、専門家のアノテーションとしてレビュアー-著者-レビューの議論を活用し、正確性を強化するために信頼できないレビューをフィルタリングします。 CoCoReviewBenchは、ICLRとNeurIPSから3,900の論文をキュレーションして、AIレビュアーの信頼性ときめ細かい評価を可能にする。
参考スコア（独自算出の注目度）: 39.97153044457166
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the rapid development of AI reviewers, evaluating such systems remains challenging: metrics favor overlap with human reviews over correctness. However, since human reviews often cover only a subset of salient issues and sometimes contain mistakes, they are unreliable as gold references. To address this, we build category-specific benchmark subsets and skip evaluation when the corresponding human reviews are missing to strengthen Completeness. We also leverage reviewer--author--meta-review discussions as expert annotations and filter unreliable reviews accordingly to strengthen Correctness. Finally, we introduce CoCoReviewBench, which curates 3,900 papers from ICLR and NeurIPS to enable reliable and fine-grained evaluation of AI reviewers. Analysis shows that AI reviewers remain limited in correctness and are prone to hallucinations, and highlights reasoning models as more effective reviewers, motivating further directions for improving AI reviewers. Benchmarks and models are available at https://github.com/hexuandeng/CoCoReviewBench.
Abstract（参考訳）: AIレビュアーの急速な開発にもかかわらず、このようなシステムの評価は依然として困難である。しかしながら、人間によるレビューは問題の一部のみをカバーし、時に誤りを含むため、金の参照として信頼できない。これを解決するために、カテゴリ固有のベンチマークサブセットを構築し、対応する人間レビューが欠落している場合に評価をスキップし、完全性を強化する。また、専門家のアノテーションとしてレビュアー-著者-レビューの議論を活用し、正確性を強化するために信頼できないレビューをフィルタリングします。最後に、AIレビュアーの信頼性ときめ細かい評価を可能にするために、ICLRとNeurIPSから3,900の論文をキュレートするCoCoReviewBenchを紹介する。分析によると、AIレビュアーは正当性に制限を受けており、幻覚を起こす傾向があり、推論モデルをより効果的なレビュアーとして強調し、AIレビュアーを改善するためのさらなる方向性を動機付けている。ベンチマークとモデルはhttps://github.com/hexuandeng/CoCoReviewBench.comで公開されている。

論文の概要: CoCoReviewBench: A Completeness- and Correctness-Oriented Benchmark for AI Reviewers

関連論文リスト