論文の概要: Gen-Review: A Large-scale Dataset of AI-Generated (and Human-written) Peer Reviews
- arxiv url: http://arxiv.org/abs/2510.21192v1
- Date: Fri, 24 Oct 2025 06:54:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 06:57:23.388097
- Title: Gen-Review: A Large-scale Dataset of AI-Generated (and Human-written) Peer Reviews
- Title(参考訳): Gen-Review:AI生成(と人間による)ピアレビューの大規模データセット
- Authors: Luca Demetrio, Giovanni Apruzzese, Kathrin Grosse, Pavel Laskov, Emil Lupu, Vera Rimmer, Philine Widmer,
- Abstract要約: 我々は LLM によるレビューを含む最大のデータセットである GenReview を提示する。
私たちのデータセットには、2018年から2025年にかけてのICLRのすべてのサブミッションに対して生成される81Kのレビューが含まれています。
GenReviewの価値を説明するために、興味深い研究質問のサンプルを探索する。
- 参考スコア(独自算出の注目度): 7.138338798002387
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How does the progressive embracement of Large Language Models (LLMs) affect scientific peer reviewing? This multifaceted question is fundamental to the effectiveness -- as well as to the integrity -- of the scientific process. Recent evidence suggests that LLMs may have already been tacitly used in peer reviewing, e.g., at the 2024 International Conference of Learning Representations (ICLR). Furthermore, some efforts have been undertaken in an attempt to explicitly integrate LLMs in peer reviewing by various editorial boards (including that of ICLR'25). To fully understand the utility and the implications of LLMs' deployment for scientific reviewing, a comprehensive relevant dataset is strongly desirable. Despite some previous research on this topic, such dataset has been lacking so far. We fill in this gap by presenting GenReview, the hitherto largest dataset containing LLM-written reviews. Our dataset includes 81K reviews generated for all submissions to the 2018--2025 editions of the ICLR by providing the LLM with three independent prompts: a negative, a positive, and a neutral one. GenReview is also linked to the respective papers and their original reviews, thereby enabling a broad range of investigations. To illustrate the value of GenReview, we explore a sample of intriguing research questions, namely: if LLMs exhibit bias in reviewing (they do); if LLM-written reviews can be automatically detected (so far, they can); if LLMs can rigorously follow reviewing instructions (not always) and whether LLM-provided ratings align with decisions on paper acceptance or rejection (holds true only for accepted papers). GenReview can be accessed at the following link: https://anonymous.4open.science/r/gen_review.
- Abstract(参考訳): 大規模言語モデル(LLM)の進歩的受容は、科学的ピアレビューにどのように影響するのか?
この多面的な質問は、科学的プロセスの有効性、および完全性に基礎を置いている。
最近の証拠は、2024年のICLR(International Conference of Learning Representations)において、LLMがピアレビューで暗黙的に使われた可能性があることを示唆している。
さらに、様々な編集委員会(ICLR'25を含む)によるピアレビューにおいてLSMを明示的に統合する試みも行われている。
科学的レビューのためのLLMの展開の有用性と意義を十分に理解するためには、包括的な関連するデータセットが強く望ましい。
このトピックに関する以前の研究にもかかわらず、そのようなデータセットは今のところ欠落している。
我々は、LLMで書かれたレビューを含む最大のデータセットであるGenReviewを提示することで、このギャップを埋める。
我々のデータセットには、2018-2025年版ICLRへの全ての提出に対して生成される81Kのレビューが含まれており、LLMに3つの独立したプロンプト(負、正、中立のプロンプト)を提供する。
GenReviewはまた、各論文とそのオリジナルのレビューに関連付けられており、幅広い調査を可能にしている。
我々は、GenReviewの価値を説明するために、LLMがレビューのバイアスを示す場合(それらはできる)、LLMで書かれたレビューを自動的に検出できる場合(これまではできる)、LLMで書かれたレビューがレビューの指示を厳格に追従できる場合(常にではない)、LLMが提案する評価が論文の受理や拒絶の決定と整合するかどうか(受理論文のみに当てはまる)、といった興味深い研究課題のサンプルを探索する。
GenReviewは以下のリンクでアクセスできる。
関連論文リスト
- LLM-REVal: Can We Trust LLM Reviewers Yet? [70.58742663985652]
大規模言語モデル(LLM)は研究者に、学術的なワークフローに広く組み込むよう刺激を与えている。
本研究は、LLMのピアレビューと研究プロセスへの深い統合が学術的公正性にどのように影響するかに焦点を当てる。
論文 参考訳(メタデータ) (2025-10-14T10:30:20Z) - Prompt Injection Attacks on LLM Generated Reviews of Scientific Publications [18.33812068961096]
本稿では,操作の実践性と技術的成功について考察する。
システム評価では, LLM が生成する 2024 ICLR 論文の1k のレビューを用いて評価を行った。
論文 参考訳(メタデータ) (2025-09-12T13:45:24Z) - When Your Reviewer is an LLM: Biases, Divergence, and Prompt Injection Risks in Peer Review [34.067892820832405]
本稿では,学術レビュアーとして大規模言語モデル(LLM)を体系的に評価する。
ICLR 2023とNeurIPS 2022の1,441論文のキュレートされたデータセットを用いて、評価、強度、弱点を越えて、GPT-5-miniをヒトレビュアーに対して評価した。
以上の結果から, LLMは, より弱い論文に対する評価を一貫して向上させつつ, より強いコントリビューションに対する人間の判断と密に一致させることが示唆された。
論文 参考訳(メタデータ) (2025-09-12T00:57:50Z) - Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。
本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。
私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文 参考訳(メタデータ) (2024-06-24T01:30:22Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。