論文の概要: Can LLM feedback enhance review quality? A randomized study of 20K reviews at ICLR 2025
- arxiv url: http://arxiv.org/abs/2504.09737v1
- Date: Sun, 13 Apr 2025 22:01:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-23 02:55:56.164662
- Title: Can LLM feedback enhance review quality? A randomized study of 20K reviews at ICLR 2025
- Title(参考訳): LLMフィードバックはレビュー品質を向上させるか? : ICLR 2025における20Kレビューのランダム化
- Authors: Nitya Thakkar, Mert Yuksekgonul, Jake Silberg, Animesh Garg, Nanyun Peng, Fei Sha, Rose Yu, Carl Vondrick, James Zou,
- Abstract要約: Review Feedback Agentは、あいまいなコメント、コンテンツの誤解、レビュアーへの専門的でない発言に対する自動的なフィードバックを提供する。
ICLR 2025で大規模なランダム化制御研究として実装された。
フィードバックを受けたレビュアーの27%がレビューを更新し、エージェントからの12,000以上のフィードバック提案がレビュアーによって取り入れられた。
- 参考スコア(独自算出の注目度): 115.86204862475864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Peer review at AI conferences is stressed by rapidly rising submission volumes, leading to deteriorating review quality and increased author dissatisfaction. To address these issues, we developed Review Feedback Agent, a system leveraging multiple large language models (LLMs) to improve review clarity and actionability by providing automated feedback on vague comments, content misunderstandings, and unprofessional remarks to reviewers. Implemented at ICLR 2025 as a large randomized control study, our system provided optional feedback to more than 20,000 randomly selected reviews. To ensure high-quality feedback for reviewers at this scale, we also developed a suite of automated reliability tests powered by LLMs that acted as guardrails to ensure feedback quality, with feedback only being sent to reviewers if it passed all the tests. The results show that 27% of reviewers who received feedback updated their reviews, and over 12,000 feedback suggestions from the agent were incorporated by those reviewers. This suggests that many reviewers found the AI-generated feedback sufficiently helpful to merit updating their reviews. Incorporating AI feedback led to significantly longer reviews (an average increase of 80 words among those who updated after receiving feedback) and more informative reviews, as evaluated by blinded researchers. Moreover, reviewers who were selected to receive AI feedback were also more engaged during paper rebuttals, as seen in longer author-reviewer discussions. This work demonstrates that carefully designed LLM-generated review feedback can enhance peer review quality by making reviews more specific and actionable while increasing engagement between reviewers and authors. The Review Feedback Agent is publicly available at https://github.com/zou-group/review_feedback_agent.
- Abstract(参考訳): AIカンファレンスでのピアレビューは、レビュー品質を劣化させ、著者の不満を増大させる、急速に増加する提出ボリュームによって強調されている。
これらの問題に対処するため,複数の大規模言語モデル(LLM)を利用したレビューフィードバックエージェントを開発した。
ICLR 2025において、大規模なランダム化制御研究として実装され、2万以上のランダムに選択されたレビューに対してオプションフィードバックを提供した。
この規模でレビュアーの高品質なフィードバックを確保するため、私たちはまた、すべてのテストに合格した場合にのみフィードバックが送信され、フィードバック品質を確保するためにガードレールとして機能するLLMを使用した自動信頼性テストスイートを開発しました。
その結果、フィードバックを受けたレビュアーの27%がレビューを更新し、エージェントからの12,000以上のフィードバック提案がレビュアーに取り入れられた。
これは、多くのレビュアーが、AIが生成したフィードバックがレビューの更新に十分な効果があることを示唆している。
AIフィードバックを取り入れることで、より長いレビュー(フィードバックを受けた後に更新した人の平均80語の増加)とより情報的なレビューが、盲目の研究者によって評価された。
さらに、AIフィードバックを受けるために選ばれたレビュアーは、より長い著者とレビュアーの議論に見られるように、ペーパーリビュータルの間もより関与した。
この研究は、慎重に設計されたLCM生成レビューフィードバックが、レビューをより具体的で実用的なものにし、レビュアーと著者間のエンゲージメントを高めることによって、ピアレビュー品質を向上させることを実証している。
Review Feedback Agentはhttps://github.com/zou-group/review_feedback_agent.comで公開されている。
関連論文リスト
- LazyReview A Dataset for Uncovering Lazy Thinking in NLP Peer Reviews [74.87393214734114]
この研究は、微粒な遅延思考カテゴリで注釈付けされたピアレビュー文のデータセットであるLazyReviewを紹介している。
大規模言語モデル(LLM)は、ゼロショット設定でこれらのインスタンスを検出するのに苦労する。
命令ベースのデータセットの微調整により、パフォーマンスが10~20ポイント向上する。
論文 参考訳(メタデータ) (2025-04-15T10:07:33Z) - Understanding and Supporting Peer Review Using AI-reframed Positive Summary [18.686807993563168]
本研究は,筆記作業のピアレビューに自動生成された肯定的な要約を付加することの影響について検討した。
さもなくば過酷なフィードバックにAIを再構成した肯定的な要約を加えると、著者の批判的受け入れが増大することがわかった。
我々は、ピアフィードバックにおけるAIの利用の意味について論じ、それが批判的受容にどのように影響するかに注目し、研究コミュニティを支援する。
論文 参考訳(メタデータ) (2025-03-13T11:22:12Z) - ReviewAgents: Bridging the Gap Between Human and AI-Generated Paper Reviews [26.031039064337907]
学術論文レビュー(Academic paper review)は、研究コミュニティにおける批判的だが時間を要する課題である。
学術出版物の増加に伴い、レビュープロセスの自動化が大きな課題となっている。
大規模言語モデル(LLM)を利用して学術論文レビューを生成するフレームワークであるReviewAgentsを提案する。
論文 参考訳(メタデータ) (2025-03-11T14:56:58Z) - Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - Usefulness of LLMs as an Author Checklist Assistant for Scientific Papers: NeurIPS'24 Experiment [59.09144776166979]
大規模言語モデル(LLM)は、科学的ピアレビューを支援する上で有望だが議論の余地のあるツールである。
本研究は,論文提出を提出基準に適合させるツールとして,会議環境におけるLCMの有用性を評価する。
論文 参考訳(メタデータ) (2024-11-05T18:58:00Z) - AI-Driven Review Systems: Evaluating LLMs in Scalable and Bias-Aware Academic Reviews [18.50142644126276]
我々は,人選好のアリーナを用いて,人選好と自動レビューのアライメントを評価する。
我々は、LLMを微調整して人間の好みを予測し、LLM同士の真っ向からの戦いにおいて、どのレビューが好まれるかを予測する。
我々は、公開可能なarXivおよびオープンアクセスのNatureジャーナルのレビューをオンラインで公開し、著者が研究論文をレビューし、改訂し、品質を改善するのに役立つ無料サービスを提供しています。
論文 参考訳(メタデータ) (2024-08-19T19:10:38Z) - Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs [57.16442740983528]
アドホック検索では、評価は暗黙のフィードバックを含むユーザーの行動に大きく依存する。
アノテータの会話知覚におけるターン評価におけるユーザフィードバックの役割はほとんど研究されていない。
本稿では,タスク指向対話システム(TDS)の評価が,ターンのフォローアップ発話を通じて提供されるユーザフィードバック,明示的あるいは暗黙的な評価にどのように影響するかに注目した。
論文 参考訳(メタデータ) (2024-04-19T16:45:50Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [55.33653554387953]
パターン分析とマシンインテリジェンス(PAMI)は、情報の収集と断片化を目的とした多くの文献レビューにつながっている。
本稿では、PAMI分野におけるこれらの文献レビューの徹底的な分析について述べる。
1)PAMI文献レビューの構造的・統計的特徴は何か,(2)レビューの増大するコーパスを効率的にナビゲートするために研究者が活用できる戦略は何か,(3)AIが作成したレビューの利点と限界は人間によるレビューと比較するとどのようなものか,という3つの主要な研究課題に対処しようとする。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - Reviewer2: Optimizing Review Generation Through Prompt Generation [28.050468098801872]
本稿では、Reviewer2と呼ばれる効率的な2段階レビュー生成フレームワークを提案する。
従来の作業とは異なり、このアプローチは、レビューが対処する可能性のある側面の分布を明示的にモデル化する。
アスペクトプロンプトでアノテートした27k論文と99kレビューの大規模なレビューデータセットを生成します。
論文 参考訳(メタデータ) (2024-02-16T18:43:10Z) - On the Role of Reviewer Expertise in Temporal Review Helpfulness
Prediction [5.381004207943597]
有用なレビューを識別する既存の方法は、主にレビューテキストに焦点をあて、レビューを投稿する(1)とレビューを投稿する(2)の2つの重要な要素を無視する。
本稿では,過去のレビュー履歴から得られたレビュアの専門知識と,レビューの時間的ダイナミクスを統合し,レビューの有用性を自動的に評価するモデルを提案する。
論文 参考訳(メタデータ) (2023-02-22T23:41:22Z) - Automating App Review Response Generation [67.58267006314415]
本稿では,レビューと回答の知識関係を学習することで,レビュー応答を自動的に生成する新しいアプローチRRGenを提案する。
58のアプリと309,246のレビュー-レスポンスペアの実験では、RRGenはBLEU-4の点で少なくとも67.4%のベースラインを上回っている。
論文 参考訳(メタデータ) (2020-02-10T05:23:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。