論文の概要: Can LLM feedback enhance review quality? A randomized study of 20K reviews at ICLR 2025
- arxiv url: http://arxiv.org/abs/2504.09737v1
- Date: Sun, 13 Apr 2025 22:01:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:56:01.873644
- Title: Can LLM feedback enhance review quality? A randomized study of 20K reviews at ICLR 2025
- Title(参考訳): LLMフィードバックはレビュー品質を向上させるか? : ICLR 2025における20Kレビューのランダム化
- Authors: Nitya Thakkar, Mert Yuksekgonul, Jake Silberg, Animesh Garg, Nanyun Peng, Fei Sha, Rose Yu, Carl Vondrick, James Zou,
- Abstract要約: Review Feedback Agentは、あいまいなコメント、コンテンツの誤解、レビュアーへの専門的でない発言に対する自動的なフィードバックを提供する。
ICLR 2025で大規模なランダム化制御研究として実装された。
フィードバックを受けたレビュアーの27%がレビューを更新し、エージェントからの12,000以上のフィードバック提案がレビュアーによって取り入れられた。
- 参考スコア(独自算出の注目度): 115.86204862475864
- License:
- Abstract: Peer review at AI conferences is stressed by rapidly rising submission volumes, leading to deteriorating review quality and increased author dissatisfaction. To address these issues, we developed Review Feedback Agent, a system leveraging multiple large language models (LLMs) to improve review clarity and actionability by providing automated feedback on vague comments, content misunderstandings, and unprofessional remarks to reviewers. Implemented at ICLR 2025 as a large randomized control study, our system provided optional feedback to more than 20,000 randomly selected reviews. To ensure high-quality feedback for reviewers at this scale, we also developed a suite of automated reliability tests powered by LLMs that acted as guardrails to ensure feedback quality, with feedback only being sent to reviewers if it passed all the tests. The results show that 27% of reviewers who received feedback updated their reviews, and over 12,000 feedback suggestions from the agent were incorporated by those reviewers. This suggests that many reviewers found the AI-generated feedback sufficiently helpful to merit updating their reviews. Incorporating AI feedback led to significantly longer reviews (an average increase of 80 words among those who updated after receiving feedback) and more informative reviews, as evaluated by blinded researchers. Moreover, reviewers who were selected to receive AI feedback were also more engaged during paper rebuttals, as seen in longer author-reviewer discussions. This work demonstrates that carefully designed LLM-generated review feedback can enhance peer review quality by making reviews more specific and actionable while increasing engagement between reviewers and authors. The Review Feedback Agent is publicly available at https://github.com/zou-group/review_feedback_agent.
- Abstract(参考訳): AIカンファレンスでのピアレビューは、レビュー品質を劣化させ、著者の不満を増大させる、急速に増加する提出ボリュームによって強調されている。
これらの問題に対処するため,複数の大規模言語モデル(LLM)を利用したレビューフィードバックエージェントを開発した。
ICLR 2025において、大規模なランダム化制御研究として実装され、2万以上のランダムに選択されたレビューに対してオプションフィードバックを提供した。
この規模でレビュアーの高品質なフィードバックを確保するため、私たちはまた、すべてのテストに合格した場合にのみフィードバックが送信され、フィードバック品質を確保するためにガードレールとして機能するLLMを使用した自動信頼性テストスイートを開発しました。
その結果、フィードバックを受けたレビュアーの27%がレビューを更新し、エージェントからの12,000以上のフィードバック提案がレビュアーに取り入れられた。
これは、多くのレビュアーが、AIが生成したフィードバックがレビューの更新に十分な効果があることを示唆している。
AIフィードバックを取り入れることで、より長いレビュー(フィードバックを受けた後に更新した人の平均80語の増加)とより情報的なレビューが、盲目の研究者によって評価された。
さらに、AIフィードバックを受けるために選ばれたレビュアーは、より長い著者とレビュアーの議論に見られるように、ペーパーリビュータルの間もより関与した。
この研究は、慎重に設計されたLCM生成レビューフィードバックが、レビューをより具体的で実用的なものにし、レビュアーと著者間のエンゲージメントを高めることによって、ピアレビュー品質を向上させることを実証している。
Review Feedback Agentはhttps://github.com/zou-group/review_feedback_agent.comで公開されている。
関連論文リスト
- Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - Usefulness of LLMs as an Author Checklist Assistant for Scientific Papers: NeurIPS'24 Experiment [59.09144776166979]
大規模言語モデル(LLM)は、科学的ピアレビューを支援する上で有望だが議論の余地のあるツールである。
本研究は,論文提出を提出基準に適合させるツールとして,会議環境におけるLCMの有用性を評価する。
論文 参考訳(メタデータ) (2024-11-05T18:58:00Z) - Analysis of the ICML 2023 Ranking Data: Can Authors' Opinions of Their Own Papers Assist Peer Review in Machine Learning? [52.00419656272129]
我々は2023年の国際機械学習会議(ICML)で実験を行った。
我々はそれぞれ2,592件の応募書を含む1,342件のランク付けを受けた。
著者によるランキングを用いて生のレビュースコアを校正するイソトニックメカニズムに注目した。
論文 参考訳(メタデータ) (2024-08-24T01:51:23Z) - AI-Driven Review Systems: Evaluating LLMs in Scalable and Bias-Aware Academic Reviews [18.50142644126276]
我々は,人選好のアリーナを用いて,人選好と自動レビューのアライメントを評価する。
我々は、LLMを微調整して人間の好みを予測し、LLM同士の真っ向からの戦いにおいて、どのレビューが好まれるかを予測する。
我々は、公開可能なarXivおよびオープンアクセスのNatureジャーナルのレビューをオンラインで公開し、著者が研究論文をレビューし、改訂し、品質を改善するのに役立つ無料サービスを提供しています。
論文 参考訳(メタデータ) (2024-08-19T19:10:38Z) - Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs [57.16442740983528]
アドホック検索では、評価は暗黙のフィードバックを含むユーザーの行動に大きく依存する。
アノテータの会話知覚におけるターン評価におけるユーザフィードバックの役割はほとんど研究されていない。
本稿では,タスク指向対話システム(TDS)の評価が,ターンのフォローアップ発話を通じて提供されるユーザフィードバック,明示的あるいは暗黙的な評価にどのように影響するかに注目した。
論文 参考訳(メタデータ) (2024-04-19T16:45:50Z) - Reviewer2: Optimizing Review Generation Through Prompt Generation [28.050468098801872]
本稿では、Reviewer2と呼ばれる効率的な2段階レビュー生成フレームワークを提案する。
従来の作業とは異なり、このアプローチは、レビューが対処する可能性のある側面の分布を明示的にモデル化する。
アスペクトプロンプトでアノテートした27k論文と99kレビューの大規模なレビューデータセットを生成します。
論文 参考訳(メタデータ) (2024-02-16T18:43:10Z) - Improving Code Reviewer Recommendation: Accuracy, Latency, Workload, and
Bystanders [6.538051328482194]
当社は2018年のRevRecV1以降生産されているレコメンデータを構築しています。
私たちは、レビュアーがファイルの以前のオーサシップに基づいて割り当てられていることに気付きました。
レビューに責任を持つ個人を持つことは、レビューにかかる時間を11%削減する。
論文 参考訳(メタデータ) (2023-12-28T17:55:13Z) - On the Role of Reviewer Expertise in Temporal Review Helpfulness
Prediction [5.381004207943597]
有用なレビューを識別する既存の方法は、主にレビューテキストに焦点をあて、レビューを投稿する(1)とレビューを投稿する(2)の2つの重要な要素を無視する。
本稿では,過去のレビュー履歴から得られたレビュアの専門知識と,レビューの時間的ダイナミクスを統合し,レビューの有用性を自動的に評価するモデルを提案する。
論文 参考訳(メタデータ) (2023-02-22T23:41:22Z) - Automating App Review Response Generation [67.58267006314415]
本稿では,レビューと回答の知識関係を学習することで,レビュー応答を自動的に生成する新しいアプローチRRGenを提案する。
58のアプリと309,246のレビュー-レスポンスペアの実験では、RRGenはBLEU-4の点で少なくとも67.4%のベースラインを上回っている。
論文 参考訳(メタデータ) (2020-02-10T05:23:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。