論文の概要: The Good, the Bad and the Constructive: Automatically Measuring Peer Review's Utility for Authors
- arxiv url: http://arxiv.org/abs/2509.04484v2
- Date: Mon, 08 Sep 2025 06:37:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.394078
- Title: The Good, the Bad and the Constructive: Automatically Measuring Peer Review's Utility for Authors
- Title(参考訳): 良いもの、悪いもの、建設的なもの - 著者に対するピアレビューの実用性を自動的に測定する
- Authors: Abdelrahman Sadallah, Tim Baumgärtner, Iryna Gurevych, Ted Briscoe,
- Abstract要約: 我々は、著者のユーティリティを駆動するレビューコメントの4つの重要な側面を識別する:アクションビリティ、グラウンディングと特異性、検証可能性、ヘルプフルネス。
人間のラベル付きレビューコメント1,430件を収集し、トレーニング目的のために10万件のラベル付きコメントを合成してデータをスケールします。
これらの側面に対するレビューコメントの評価と合理性を生成するための微調整モデルをベンチマークする。
- 参考スコア(独自算出の注目度): 45.98233565214142
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Providing constructive feedback to paper authors is a core component of peer review. With reviewers increasingly having less time to perform reviews, automated support systems are required to ensure high reviewing quality, thus making the feedback in reviews useful for authors. To this end, we identify four key aspects of review comments (individual points in weakness sections of reviews) that drive the utility for authors: Actionability, Grounding & Specificity, Verifiability, and Helpfulness. To enable evaluation and development of models assessing review comments, we introduce the RevUtil dataset. We collect 1,430 human-labeled review comments and scale our data with 10k synthetically labeled comments for training purposes. The synthetic data additionally contains rationales, i.e., explanations for the aspect score of a review comment. Employing the RevUtil dataset, we benchmark fine-tuned models for assessing review comments on these aspects and generating rationales. Our experiments demonstrate that these fine-tuned models achieve agreement levels with humans comparable to, and in some cases exceeding, those of powerful closed models like GPT-4o. Our analysis further reveals that machine-generated reviews generally underperform human reviews on our four aspects.
- Abstract(参考訳): 論文執筆者に建設的なフィードバックを提供することは、ピアレビューの中核的な要素である。
レビュアーはレビューを行う時間が減り、高いレビュー品質を確保するために自動化されたサポートシステムが必要であるため、レビューのフィードバックは著者にとって有益なものとなる。
この目的のために、著者にとって有用性を促進するレビューコメント(レビューの弱点部分の個人的ポイント)の4つの重要な側面、すなわち、アクションビリティ、グラウンディングと特異性、検証可能性、ヘルプフルネスを識別する。
レビューコメントを評価するモデルの評価と開発を可能にするために,RevUtilデータセットを導入する。
人間のラベル付きレビューコメント1,430件を収集し、トレーニング目的のために10万件のラベル付きコメントを合成してデータをスケールします。
合成データは、レビューコメントのアスペクトスコアに関する説明など、合理性も含んでいる。
RevUtilデータセットを用いて、これらの側面に関するレビューコメントを評価し、合理性を生成するための微調整されたモデルをベンチマークする。
我々の実験は、これらの微調整モデルが、GPT-4oのような強力なクローズドモデルに匹敵する、場合によってはそれを超える人間との合意レベルを達成することを示した。
我々の分析により、機械によるレビューは一般的に4つの側面における人間のレビューを過小評価していることが明らかになった。
関連論文リスト
- Generative Adversarial Reviews: When LLMs Become the Critic [1.2430809884830318]
本稿では,LLMを利用したエージェントを利用して,忠実なピアレビュアーをシミュレートするジェネレーティブエージェントレビュアー(GAR)を紹介する。
このアプローチの中心は、グラフベースの原稿表現であり、コンテンツを凝縮し、情報を論理的に整理する。
本実験は,GARが人間レビュアーに対して,詳細なフィードバックと論文結果の予測を行う上で,相容れない性能を示すことを示した。
論文 参考訳(メタデータ) (2024-12-09T06:58:17Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [55.33653554387953]
パターン分析とマシンインテリジェンス(PAMI)は、情報の収集と断片化を目的とした多くの文献レビューにつながっている。
本稿では、PAMI分野におけるこれらの文献レビューの徹底的な分析について述べる。
1)PAMI文献レビューの構造的・統計的特徴は何か,(2)レビューの増大するコーパスを効率的にナビゲートするために研究者が活用できる戦略は何か,(3)AIが作成したレビューの利点と限界は人間によるレビューと比較するとどのようなものか,という3つの主要な研究課題に対処しようとする。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - ReAct: A Review Comment Dataset for Actionability (and more) [0.8885727065823155]
注釈付きレビューコメントデータセットReActを紹介する。
レビューコメントはOpenReviewのサイトから引用されている。
これらのレビューのためのアノテーションをクラウドソースで公開しています。
論文 参考訳(メタデータ) (2022-10-02T07:09:38Z) - On Faithfulness and Coherence of Language Explanations for
Recommendation Systems [8.143715142450876]
この研究は、最先端モデルとそのレビュー生成コンポーネントを探索する。
得られた説明は不安定であり, 推定評価の合理的な根拠として考える前に, さらなる評価が必要であることを示す。
論文 参考訳(メタデータ) (2022-09-12T17:00:31Z) - User and Item-aware Estimation of Review Helpfulness [4.640835690336653]
有用性決定因子としてのレビューの性質における逸脱の役割について検討する。
本稿では,従来のものを拡張した新しい有用性推定モデルを提案する。
そこで本モデルは,意思決定におけるユーザフィードバックの選択に有効なツールである。
論文 参考訳(メタデータ) (2020-11-20T15:35:56Z) - How Useful are Reviews for Recommendation? A Critical Review and
Potential Improvements [8.471274313213092]
本稿では,レビューテキストを用いてレコメンデーションシステムの改善を目指す,新たな作業体系について検討する。
実験条件やデータ前処理に変化はあるものの, 論文間で結果がコピーされていることから, 報告結果にいくつかの相違点がみられた。
さらなる調査では、リコメンデーションのためのユーザレビューの"重要"に関して、はるかに大きな問題に関する議論が求められている。
論文 参考訳(メタデータ) (2020-05-25T16:30:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。