論文の概要: Beyond Rating: A Comprehensive Evaluation and Benchmark for AI Reviews
- arxiv url: http://arxiv.org/abs/2604.19502v2
- Date: Wed, 22 Apr 2026 06:14:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.45914
- Title: Beyond Rating: A Comprehensive Evaluation and Benchmark for AI Reviews
- Title(参考訳): Beyond Rating: AIレビューの総合的な評価とベンチマーク
- Authors: Bowen Li, Haochen Ma, Yuxin Wang, Jie Yang, Yining Zheng, Xinchi Chen, Xuanjing Huang, Xipeng Qiu,
- Abstract要約: 私たちは、AIレビュアーを5次元にわたって評価する総合的な評価フレームワークであるBeyond Ratingを紹介します。
本稿では,専門家の不一致に対応するためのMax-Recall戦略を提案する。
提案したテキスト中心の指標は、特に弱みの議論のリコールであり、評価精度と強く相関している。
- 参考スコア(独自算出の注目度): 69.66583722746904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid adoption of Large Language Models (LLMs) has spurred interest in automated peer review; however, progress is currently stifled by benchmarks that treat reviewing primarily as a rating prediction task. We argue that the utility of a review lies in its textual justification--its arguments, questions, and critique--rather than a scalar score. To address this, we introduce Beyond Rating, a holistic evaluation framework that assesses AI reviewers across five dimensions: Content Faithfulness, Argumentative Alignment, Focus Consistency, Question Constructiveness, and AI-Likelihood. Notably, we propose a Max-Recall strategy to accommodate valid expert disagreement and introduce a curated dataset of paper with high-confidence reviews, rigorously filtered to remove procedural noise. Extensive experiments demonstrate that while traditional n-gram metrics fail to reflect human preferences, our proposed text-centric metrics--particularly the recall of weakness arguments--correlate strongly with rating accuracy. These findings establish that aligning AI critique focus with human experts is a prerequisite for reliable automated scoring, offering a robust standard for future research.
- Abstract(参考訳): LLM(Large Language Models)の急速な採用は、自動ピアレビューへの関心を喚起しているが、現在、レビューを主に評価予測タスクとして扱うベンチマークによって進歩が阻害されている。
我々は、レビューの効用は、スカラースコアではなく、そのテキストの正当化(議論、質問、批判)にあると論じている。
この問題を解決するために、Beyond Ratingという、コンテンツ忠実性、主張的アライメント、フォーカス一貫性、質問構成性、AI風の5つの次元でAIレビュアーを評価する包括的な評価フレームワークを紹介します。
特に,有能な専門家の不一致に対応するためのMax-Recall戦略を提案し,高信頼度レビュー付き論文集を厳格にフィルタリングし,手続き的ノイズを除去する。
大規模な実験では、従来のn-gramのメトリクスは人間の好みを反映しないが、テキスト中心のメトリクス(特に弱みの議論のリコール)は評価精度と強く相関している。
これらの結果は、AI批判を人間の専門家と一致させることが、信頼性の高い自動スコアリングの前提条件であり、将来の研究の堅牢な標準を提供することを証明している。
関連論文リスト
- DREAM: Deep Research Evaluation with Agentic Metrics [21.555357444628044]
本稿では,DREAM(Deep Research Evaluation with Agentic Metrics)を提案する。
DREAM構造評価は、クエリ非依存のメトリクスとツール呼び出しエージェントが生成する適応的なメトリクスを組み合わせた評価プロトコルを用いて行われる。
制御された評価は、DREAMが既存のベンチマークよりも事実や時間的劣化にかなり敏感であることを示している。
論文 参考訳(メタデータ) (2026-02-21T19:14:31Z) - Automatic Reviewers Fail to Detect Faulty Reasoning in Research Papers: A New Counterfactual Evaluation Framework [55.078301794183496]
我々は、高品質なピアレビューを支えるコアレビュースキル、すなわち欠陥のある研究ロジックの検出に注力する。
これは、論文の結果、解釈、クレームの間の内部の一貫性を評価することを含む。
本稿では,このスキルを制御条件下で分離し,テストする,完全自動対物評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-29T08:48:00Z) - CoCoNUTS: Concentrating on Content while Neglecting Uninformative Textual Styles for AI-Generated Peer Review Detection [60.52240468810558]
我々は、AI生成ピアレビューの詳細なデータセットの上に構築されたコンテンツ指向ベンチマークであるCoCoNUTSを紹介する。
また、マルチタスク学習フレームワークを介してAIレビュー検出を行うCoCoDetを開発し、レビューコンテンツにおけるAIのより正確で堅牢な検出を実現する。
論文 参考訳(メタデータ) (2025-08-28T06:03:11Z) - ReviewEval: An Evaluation Framework for AI-Generated Reviews [9.35023998408983]
学術研究の増大は、資格のあるレビュアーの不足と相まって、ピアレビューに対する革新的なアプローチを必要としている。
本稿では,AIによるレビューを総合的に評価するフレームワークであるReviewEvalを提案する。
本稿では、AIに基づくピアレビューに不可欠な指標を確立し、学術研究におけるAI生成レビューの信頼性と影響を大幅に向上させる。
論文 参考訳(メタデータ) (2025-02-17T12:22:11Z) - DeepCRCEval: Revisiting the Evaluation of Code Review Comment Generation [11.010557279355885]
本研究は,先行研究や開発者インタビューから得られた新しい基準を用いて,ベンチマークコメントを実証的に分析する。
評価フレームワークであるDeepCRCEvalは、人間の評価器とLarge Language Models(LLM)を統合し、現在の手法を総合的に再評価する。
論文 参考訳(メタデータ) (2024-12-24T08:53:54Z) - From Adversarial Arms Race to Model-centric Evaluation: Motivating a
Unified Automatic Robustness Evaluation Framework [91.94389491920309]
テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。
既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。
我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-29T14:55:20Z) - Do You Hear The People Sing? Key Point Analysis via Iterative Clustering
and Abstractive Summarisation [12.548947151123555]
議論の要約は有望だが、現在未調査の分野である。
キーポイント分析の主な課題の1つは、高品質なキーポイント候補を見つけることである。
キーポイントの評価は 自動的に生成された要約が 役に立つことを保証するのに 不可欠です
論文 参考訳(メタデータ) (2023-05-25T12:43:29Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。