論文の概要: ReviewScore: Misinformed Peer Review Detection with Large Language Models
- arxiv url: http://arxiv.org/abs/2509.21679v1
- Date: Thu, 25 Sep 2025 22:55:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.070261
- Title: ReviewScore: Misinformed Peer Review Detection with Large Language Models
- Title(参考訳): ReviewScore: 大きな言語モデルによる誤表現によるピアレビューの検出
- Authors: Hyun Ryu, Doohyuk Jang, Hyemin S. Lee, Joonhyun Jeong, Gyeongman Kim, Donghyeon Cho, Gyouk Chu, Minyeong Hwang, Hyeongwon Jang, Changhun Kim, Haechan Kim, Jina Kim, Joowon Kim, Yoonjeon Kim, Kwanhyung Lee, Chanjae Park, Heecheol Yun, Gregor Betz, Eunho Yang,
- Abstract要約: 15.2%の弱点と26.4%の質問が誤記されていることを示し、レビューポイントが誤記されているかどうかを示すReviewScoreを紹介した。
人間の専門家によるReviewScoreデータセットを構築し、LLMがReviewScore評価を自動化する能力をチェックする。
また、前提レベルの事実性を評価することは、弱点レベルの事実性を評価するよりも、はるかに高い合意を示すことを示す。
- 参考スコア(独自算出の注目度): 38.92827930465428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Peer review serves as a backbone of academic research, but in most AI conferences, the review quality is degrading as the number of submissions explodes. To reliably detect low-quality reviews, we define misinformed review points as either "weaknesses" in a review that contain incorrect premises, or "questions" in a review that can be already answered by the paper. We verify that 15.2% of weaknesses and 26.4% of questions are misinformed and introduce ReviewScore indicating if a review point is misinformed. To evaluate the factuality of each premise of weaknesses, we propose an automated engine that reconstructs every explicit and implicit premise from a weakness. We build a human expert-annotated ReviewScore dataset to check the ability of LLMs to automate ReviewScore evaluation. Then, we measure human-model agreements on ReviewScore using eight current state-of-the-art LLMs and verify moderate agreements. We also prove that evaluating premise-level factuality shows significantly higher agreements than evaluating weakness-level factuality. A thorough disagreement analysis further supports a potential of fully automated ReviewScore evaluation.
- Abstract(参考訳): ピアレビューは学術研究のバックボーンとして機能するが、ほとんどのAIカンファレンスでは、応募の数が爆発するにつれてレビューの質が低下している。
低品質レビューを確実に検出するために、不適切な前提を含むレビューにおいて、誤記されたレビューポイントを「弱さ」と定義し、また、論文で既に答えられるレビューにおいて「疑問」と定義する。
15.2%の弱点と26.4%の質問が誤記されていることを検証し、レビューポイントが誤記されているかどうかを示すReviewScoreを紹介した。
弱点の前提の事実性を評価するために,弱点から明示的で暗黙的な前提をすべて再構築する自動エンジンを提案する。
人間の専門家によるReviewScoreデータセットを構築し、LLMがReviewScore評価を自動化する能力をチェックする。
次に,8つの現状のLCMを用いて,ReviewScore上での人間モデル合意を測定し,適度な合意を検証した。
また、前提レベルの事実性を評価することは、弱点レベルの事実性を評価するよりも、はるかに高い合意を示すことを示す。
徹底的な不一致分析は、完全自動化されたReviewScore評価の可能性をさらに支持する。
関連論文リスト
- The Good, the Bad and the Constructive: Automatically Measuring Peer Review's Utility for Authors [45.98233565214142]
我々は、著者のユーティリティを駆動するレビューコメントの4つの重要な側面を識別する:アクションビリティ、グラウンディングと特異性、検証可能性、ヘルプフルネス。
人間のラベル付きレビューコメント1,430件を収集し、トレーニング目的のために10万件のラベル付きコメントを合成してデータをスケールします。
これらの側面に対するレビューコメントの評価と合理性を生成するための微調整モデルをベンチマークする。
論文 参考訳(メタデータ) (2025-08-31T14:19:07Z) - Automatic Reviewers Fail to Detect Faulty Reasoning in Research Papers: A New Counterfactual Evaluation Framework [55.078301794183496]
我々は、高品質なピアレビューを支えるコアレビュースキル、すなわち欠陥のある研究ロジックの検出に注力する。
これは、論文の結果、解釈、クレームの間の内部の一貫性を評価することを含む。
本稿では,このスキルを制御条件下で分離し,テストする,完全自動対物評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-29T08:48:00Z) - Can LLM feedback enhance review quality? A randomized study of 20K reviews at ICLR 2025 [115.86204862475864]
Review Feedback Agentは、あいまいなコメント、コンテンツの誤解、レビュアーへの専門的でない発言に対する自動的なフィードバックを提供する。
ICLR 2025で大規模なランダム化制御研究として実装された。
フィードバックを受けたレビュアーの27%がレビューを更新し、エージェントからの12,000以上のフィードバック提案がレビュアーによって取り入れられた。
論文 参考訳(メタデータ) (2025-04-13T22:01:25Z) - ReviewAgents: Bridging the Gap Between Human and AI-Generated Paper Reviews [24.566487721847597]
学術論文レビュー(Academic paper review)は、研究コミュニティにおける批判的だが時間を要する課題である。
学術出版物の増加に伴い、レビュープロセスの自動化が大きな課題となっている。
大規模言語モデル(LLM)を利用して学術論文レビューを生成するフレームワークであるReviewAgentsを提案する。
論文 参考訳(メタデータ) (2025-03-11T14:56:58Z) - When Reviewers Lock Horn: Finding Disagreement in Scientific Peer
Reviews [24.875901048855077]
本稿では,ある記事のレビュアー間での矛盾を自動的に識別する新しいタスクを紹介する。
我々の知識を最大限に活用するために、ピアレビュアー間での意見の不一致を自動的に識別する最初の試みを行う。
論文 参考訳(メタデータ) (2023-10-28T11:57:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。