論文の概要: ReviewerToo: Should AI Join The Program Committee? A Look At The Future of Peer Review
- arxiv url: http://arxiv.org/abs/2510.08867v1
- Date: Thu, 09 Oct 2025 23:53:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.896644
- Title: ReviewerToo: Should AI Join The Program Committee? A Look At The Future of Peer Review
- Title(参考訳): 審査員Too:AIはプログラム委員会に加わるべきか? ピアレビューの未来を振り返る
- Authors: Gaurav Sahu, Hugo Larochelle, Laurent Charlin, Christopher Pal,
- Abstract要約: ReviewerTooは、AI支援ピアレビューの研究とデプロイのためのフレームワークである。
専門的なレビュアー・ペルソナと構造化された評価基準による体系的な実験を支援する。
私たちは、複雑な評価判断をドメインの専門家に任せながら、AIが一貫性、カバレッジ、公平性を高める方法を示します。
- 参考スコア(独自算出の注目度): 23.630458187587223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Peer review is the cornerstone of scientific publishing, yet it suffers from inconsistencies, reviewer subjectivity, and scalability challenges. We introduce ReviewerToo, a modular framework for studying and deploying AI-assisted peer review to complement human judgment with systematic and consistent assessments. ReviewerToo supports systematic experiments with specialized reviewer personas and structured evaluation criteria, and can be partially or fully integrated into real conference workflows. We validate ReviewerToo on a carefully curated dataset of 1,963 paper submissions from ICLR 2025, where our experiments with the gpt-oss-120b model achieves 81.8% accuracy for the task of categorizing a paper as accept/reject compared to 83.9% for the average human reviewer. Additionally, ReviewerToo-generated reviews are rated as higher quality than the human average by an LLM judge, though still trailing the strongest expert contributions. Our analysis highlights domains where AI reviewers excel (e.g., fact-checking, literature coverage) and where they struggle (e.g., assessing methodological novelty and theoretical contributions), underscoring the continued need for human expertise. Based on these findings, we propose guidelines for integrating AI into peer-review pipelines, showing how AI can enhance consistency, coverage, and fairness while leaving complex evaluative judgments to domain experts. Our work provides a foundation for systematic, hybrid peer-review systems that scale with the growth of scientific publishing.
- Abstract(参考訳): ピアレビューは科学出版の基盤であるが、矛盾、レビューアの主観性、スケーラビリティの課題に悩まされている。
我々は、AI支援ピアレビューを研究、展開するためのモジュラーフレームワークであるReviewerTooを紹介し、人間の判断を体系的で一貫した評価で補完する。
ReviewerTooは、特別なレビュアペルソナと構造化された評価基準による体系的な実験をサポートし、実際のカンファレンスワークフローに部分的にあるいは完全に統合することができる。
そこでは,gpt-oss-120bモデルを用いた実験により,平均的ヒトレビュアーの83.9%に対して,論文を受け入れ/拒絶のタスクに81.8%の精度で分類した。
さらに、ReviewerTooが作成したレビューは、LLMの審査員によって人間の平均よりも高い品質と評価されている。
我々の分析は、AIレビュアーが優れている領域(例えば、事実チェック、文献のカバレッジ)と、それらが苦労している領域(例えば、方法論的ノベルティと理論的貢献の評価)を強調し、人間の専門知識の継続的な要求を裏付ける。
これらの知見に基づいて、AIをピアレビューパイプラインに統合するためのガイドラインを提案し、複雑な評価判断をドメインの専門家に委ねながら、AIが一貫性、カバレッジ、公平性をいかに強化できるかを示す。
我々の研究は、科学出版の成長とともにスケールする、体系的でハイブリッドなピアレビューシステムの基礎を提供する。
関連論文リスト
- Automatic Reviewers Fail to Detect Faulty Reasoning in Research Papers: A New Counterfactual Evaluation Framework [55.078301794183496]
我々は、高品質なピアレビューを支えるコアレビュースキル、すなわち欠陥のある研究ロジックの検出に注力する。
これは、論文の結果、解釈、クレームの間の内部の一貫性を評価することを含む。
本稿では,このスキルを制御条件下で分離し,テストする,完全自動対物評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-29T08:48:00Z) - CoCoNUTS: Concentrating on Content while Neglecting Uninformative Textual Styles for AI-Generated Peer Review Detection [60.52240468810558]
我々は、AI生成ピアレビューの詳細なデータセットの上に構築されたコンテンツ指向ベンチマークであるCoCoNUTSを紹介する。
また、マルチタスク学習フレームワークを介してAIレビュー検出を行うCoCoDetを開発し、レビューコンテンツにおけるAIのより正確で堅牢な検出を実現する。
論文 参考訳(メタデータ) (2025-08-28T06:03:11Z) - The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。
我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文 参考訳(メタデータ) (2025-06-09T18:37:14Z) - ReviewEval: An Evaluation Framework for AI-Generated Reviews [9.35023998408983]
学術研究の増大は、資格のあるレビュアーの不足と相まって、ピアレビューに対する革新的なアプローチを必要としている。
本稿では,AIによるレビューを総合的に評価するフレームワークであるReviewEvalを提案する。
本稿では、AIに基づくピアレビューに不可欠な指標を確立し、学術研究におけるAI生成レビューの信頼性と影響を大幅に向上させる。
論文 参考訳(メタデータ) (2025-02-17T12:22:11Z) - The ICML 2023 Ranking Experiment: Examining Author Self-Assessment in ML/AI Peer Review [49.43514488610211]
著者が提供するランキングは、機械学習カンファレンスでのピアレビュープロセスを改善するために利用することができる。
著者が提示したランキングを用いて生のレビュースコアを校正するイソトニックメカニズムに注目した。
本稿では,アイソトニック機構の慎重かつリスクの低いいくつかの応用と著者が提案する格付けをピアレビューで提案する。
論文 参考訳(メタデータ) (2024-08-24T01:51:23Z) - Unveiling the Sentinels: Assessing AI Performance in Cybersecurity Peer
Review [4.081120388114928]
サイバーセキュリティの分野では、ダブルブラインドピアレビューの実践がデファクトスタンダードである。
本稿では、ピアレビューの聖杯に触れ、学術的セキュリティカンファレンスのレビューにおけるAIのパフォーマンスについて光を当てることを目的としている。
本研究では,人間レビュアーと機械学習モデルから得られた結果を比較し,評価結果の予測可能性について検討する。
論文 参考訳(メタデータ) (2023-09-11T13:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。