論文の概要: Do LLMs Favor LLMs? Quantifying Interaction Effects in Peer Review
- arxiv url: http://arxiv.org/abs/2601.20920v1
- Date: Wed, 28 Jan 2026 18:50:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.378776
- Title: Do LLMs Favor LLMs? Quantifying Interaction Effects in Peer Review
- Title(参考訳): LLMはLDMを好んでいるか? ピアレビューにおける相互作用効果の定量化
- Authors: Vibhhu Sharma, Thorsten Joachims, Sarah Dean,
- Abstract要約: ピアレビューパイプラインにまたがるLLM使用に関する,最初の包括的な分析結果を提供する。
我々は、ICLR、NeurIPS、ICMLから125,000以上のペーパーレビューペアを分析した。
- 参考スコア(独自算出の注目度): 23.244156664404205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There are increasing indications that LLMs are not only used for producing scientific papers, but also as part of the peer review process. In this work, we provide the first comprehensive analysis of LLM use across the peer review pipeline, with particular attention to interaction effects: not just whether LLM-assisted papers or LLM-assisted reviews are different in isolation, but whether LLM-assisted reviews evaluate LLM-assisted papers differently. In particular, we analyze over 125,000 paper-review pairs from ICLR, NeurIPS, and ICML. We initially observe what appears to be a systematic interaction effect: LLM-assisted reviews seem especially kind to LLM-assisted papers compared to papers with minimal LLM use. However, controlling for paper quality reveals a different story: LLM-assisted reviews are simply more lenient toward lower quality papers in general, and the over-representation of LLM-assisted papers among weaker submissions creates a spurious interaction effect rather than genuine preferential treatment of LLM-generated content. By augmenting our observational findings with reviews that are fully LLM-generated, we find that fully LLM-generated reviews exhibit severe rating compression that fails to discriminate paper quality, while human reviewers using LLMs substantially reduce this leniency. Finally, examining metareviews, we find that LLM-assisted metareviews are more likely to render accept decisions than human metareviews given equivalent reviewer scores, though fully LLM-generated metareviews tend to be harsher. This suggests that meta-reviewers do not merely outsource the decision-making to the LLM. These findings provide important input for developing policies that govern the use of LLMs during peer review, and they more generally indicate how LLMs interact with existing decision-making processes.
- Abstract(参考訳): LLMは科学論文の作成だけでなく、ピアレビュープロセスの一部としても利用されているという指摘が増えている。
本研究は, LLM 支援論文と LLM 支援論文とを別々に評価するだけでなく, LLM 支援論文と LLM 支援論文を別々に評価する。
特に、ICLR、NeurIPS、ICMLから125,000以上のペーパーレビューペアを分析した。
LLM を用いたレビューは LLM を利用した最小限の論文に比べ,特に LLM によるレビューは LLM 支援論文に優しく思われる。
LLMによるレビューは、一般的には低品質の論文に対して寛容であり、LLMによる論文の弱い投稿における過剰表現は、LCMによるコンテンツの真の優先的な処理よりも、突発的な相互作用効果をもたらす。
LLMを完全生成したレビューによる観察結果の増大により, LLM生成レビューは高い評価圧縮を示し, 紙品質の判別に失敗する一方で, LLMを用いた人間レビュアーは, この寛大さを著しく低減することがわかった。
最後に, メタレビューを検証した結果, LLMによるメタレビューは, 同等のレビュアスコアを与えられたヒトのメタレビューよりも受け入れ決定を下す傾向が見られたが, 完全なメタレビューは厳しい傾向にあることがわかった。
これはメタリビューアが単にLCMに意思決定をアウトソースするわけではないことを示唆している。
これらの知見は、ピアレビューにおいてLLMの使用を統制する政策を策定するための重要なインプットであり、LLMが既存の意思決定プロセスとどのように相互作用するかをより一般的に示している。
関連論文リスト
- LLM-REVal: Can We Trust LLM Reviewers Yet? [70.58742663985652]
大規模言語モデル(LLM)は研究者に、学術的なワークフローに広く組み込むよう刺激を与えている。
本研究は、LLMのピアレビューと研究プロセスへの深い統合が学術的公正性にどのように影響するかに焦点を当てる。
論文 参考訳(メタデータ) (2025-10-14T10:30:20Z) - Rankers, Judges, and Assistants: Towards Understanding the Interplay of LLMs in Information Retrieval Evaluation [44.58099275559231]
大規模言語モデル(LLM)は、情報検索(IR)、ランキング、評価、AI支援コンテンツ作成にますます不可欠なものになっている。
本稿では,既存の研究を合成し,LLMに基づくローダとアシスタントがLLMベースの審査員にどのように影響するかを探求する新しい実験設計を提案する。
論文 参考訳(メタデータ) (2025-03-24T19:24:40Z) - Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。
本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。
私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文 参考訳(メタデータ) (2024-06-24T01:30:22Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。