論文の概要: The AI Review Lottery: Widespread AI-Assisted Peer Reviews Boost Paper Scores and Acceptance Rates
- arxiv url: http://arxiv.org/abs/2405.02150v1
- Date: Fri, 3 May 2024 14:56:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 12:36:11.025460
- Title: The AI Review Lottery: Widespread AI-Assisted Peer Reviews Boost Paper Scores and Acceptance Rates
- Title(参考訳): AIレビュー:幅広いAI支援ピアレビューは紙のスコアとアクセプタンス率を高める
- Authors: Giuseppe Russo Latona, Manoel Horta Ribeiro, Tim R. Davidson, Veniamin Veselovsky, Robert West,
- Abstract要約: 我々は,2024年国際学習表現会議において,AI支援ピアレビューの有病率と影響について検討した。
我々は、AIによるレビューが応募スコアに与える影響を推定する。
我々は、AI支援レビューがピアレビュープロセスに即したものであることを示す。
- 参考スコア(独自算出の注目度): 11.076575064576149
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Journals and conferences worry that peer reviews assisted by artificial intelligence (AI), in particular, large language models (LLMs), may negatively influence the validity and fairness of the peer-review system, a cornerstone of modern science. In this work, we address this concern with a quasi-experimental study of the prevalence and impact of AI-assisted peer reviews in the context of the 2024 International Conference on Learning Representations (ICLR), a large and prestigious machine-learning conference. Our contributions are threefold. Firstly, we obtain a lower bound for the prevalence of AI-assisted reviews at ICLR 2024 using the GPTZero LLM detector, estimating that at least $15.8\%$ of reviews were written with AI assistance. Secondly, we estimate the impact of AI-assisted reviews on submission scores. Considering pairs of reviews with different scores assigned to the same paper, we find that in $53.4\%$ of pairs the AI-assisted review scores higher than the human review ($p = 0.002$; relative difference in probability of scoring higher: $+14.4\%$ in favor of AI-assisted reviews). Thirdly, we assess the impact of receiving an AI-assisted peer review on submission acceptance. In a matched study, submissions near the acceptance threshold that received an AI-assisted peer review were $4.9$ percentage points ($p = 0.024$) more likely to be accepted than submissions that did not. Overall, we show that AI-assisted reviews are consequential to the peer-review process and offer a discussion on future implications of current trends
- Abstract(参考訳): ジャーナルやカンファレンスは、人工知能(AI)、特に大規模言語モデル(LLM)によって支援されたピアレビューが、現代の科学の基盤であるピアレビューシステムの有効性と公正性に悪影響を及ぼすのではないかと懸念している。
本稿では,大規模かつ高名な機械学習カンファレンスである2024 International Conference on Learning Representations (ICLR) の文脈における,AI支援ピアレビューの有病率と影響に関する準実験的研究により,この問題に対処する。
私たちの貢献は3倍です。
まず、GPTZero LLM検出器を用いて、ICLR 2024におけるAI支援レビューの頻度を低くし、少なくとも15.8 %のレビューがAIアシストで書かれたと推定する。
第2に、AIによるレビューが応募スコアに与える影響を推定する。
同じ論文に割り当てられた異なるスコアのペアのレビューを考えると、AIが支援するレビュースコアが人間のレビューよりも高い(p = 0.002$; 相対的なスコアの確率差:+14.4\%$)。
第3に,AI支援のピアレビューが応募受諾に与える影響を評価する。
一致した調査では、AI支援のピアレビューを受けた受理基準付近の申請は、受理されなかった応募よりも受理される可能性が高い4.9ドル(p = 0.024ドル)であった。
全体として、AIによるレビューはピアレビューのプロセスと一致していることを示し、現在のトレンドの今後の影響について議論する。
関連論文リスト
- The Great AI Witch Hunt: Reviewers Perception and (Mis)Conception of Generative AI in Research Writing [25.73744132026804]
研究執筆におけるジェネレーティブAI(GenAI)の利用は急速に増加している。
ピアレビュアーがAIによる増補された写本をどう認識するか、それとも誤認しているかは明らかでない。
我々の研究結果は、AIによって強化された文章は可読性、言語多様性、情報性を改善するが、しばしば研究の詳細や著者からの反射的な洞察を欠いていることを示唆している。
論文 参考訳(メタデータ) (2024-06-27T02:38:25Z) - What Can Natural Language Processing Do for Peer Review? [173.8912784451817]
現代の科学ではピアレビューが広く使われているが、それは難しく、時間がかかり、エラーを起こしやすい。
ピアレビューに関わるアーティファクトは大部分がテキストベースであるため、自然言語処理はレビューを改善する大きな可能性を秘めている。
筆者らは、原稿提出からカメラ対応リビジョンまでの各工程について詳述し、NLP支援の課題と機会について論じる。
論文 参考訳(メタデータ) (2024-05-10T16:06:43Z) - Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews [51.453135368388686]
本稿では,大規模言語モデル (LLM) によって実質的に修正あるいは生成される可能性のある大規模コーパスにおけるテキストの分数推定手法を提案する。
我々の最大可能性モデルは、専門家による参照テキストとAIによる参照テキストを利用して、コーパスレベルでの実世界のLLM使用を正確かつ効率的に検証する。
論文 参考訳(メタデータ) (2024-03-11T21:51:39Z) - When Reviewers Lock Horn: Finding Disagreement in Scientific Peer
Reviews [24.875901048855077]
本稿では,ある記事のレビュアー間での矛盾を自動的に識別する新しいタスクを紹介する。
我々の知識を最大限に活用するために、ピアレビュアー間での意見の不一致を自動的に識別する最初の試みを行う。
論文 参考訳(メタデータ) (2023-10-28T11:57:51Z) - Unveiling the Sentinels: Assessing AI Performance in Cybersecurity Peer
Review [4.081120388114928]
サイバーセキュリティの分野では、ダブルブラインドピアレビューの実践がデファクトスタンダードである。
本稿では、ピアレビューの聖杯に触れ、学術的セキュリティカンファレンスのレビューにおけるAIのパフォーマンスについて光を当てることを目的としている。
本研究では,人間レビュアーと機械学習モデルから得られた結果を比較し,評価結果の予測可能性について検討する。
論文 参考訳(メタデータ) (2023-09-11T13:51:40Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - Metaethical Perspectives on 'Benchmarking' AI Ethics [81.65697003067841]
ベンチマークは、人工知能(AI)研究の技術的進歩を測定するための基盤とみられている。
AIの顕著な研究領域は倫理であり、現在、ベンチマークのセットも、AIシステムの「倫理性」を測定する一般的な方法もない。
我々は、現在と将来のAIシステムのアクションを考えるとき、倫理よりも「価値」について話す方が理にかなっていると論じる。
論文 参考訳(メタデータ) (2022-04-11T14:36:39Z) - Integrating Rankings into Quantized Scores in Peer Review [61.27794774537103]
ピアレビューでは、レビュアーは通常、論文のスコアを提供するように求められます。
この問題を軽減するため、カンファレンスはレビュアーにレビューした論文のランキングを付加するように求め始めている。
このランキング情報を使用するための標準的な手順はなく、エリアチェアは異なる方法でそれを使用することができる。
我々は、ランキング情報をスコアに組み込むために、原則化されたアプローチを取る。
論文 参考訳(メタデータ) (2022-04-05T19:39:13Z) - The Response Shift Paradigm to Quantify Human Trust in AI
Recommendations [6.652641137999891]
説明可能性、解釈可能性、そしてそれらがAIシステムに対する人間の信頼にどれほど影響するかは、究極的には機械学習と同じくらいの人間の認知の問題である。
我々は,AIレコメンデーションが人的決定に与える影響を定量化する汎用のヒューマン・AIインタラクション・パラダイムを開発し,検証した。
我々の実証・実証パラダイムは、急速に成長するXAI/IAIアプローチをエンドユーザーへの影響の観点から定量的に比較することができる。
論文 参考訳(メタデータ) (2022-02-16T22:02:09Z) - Prior and Prejudice: The Novice Reviewers' Bias against Resubmissions in
Conference Peer Review [35.24369486197371]
現代の機械学習とコンピュータサイエンスのカンファレンスは、ピアレビューの品質に挑戦する応募の数が急増している。
いくつかのカンファレンスは、著者が論文の以前の提出履歴を宣言するよう促したり、要求したりし始めた。
本研究は、レビュー対象の提出が以前、類似の会場で拒否されたという知識から生じる偏見について検討する。
論文 参考訳(メタデータ) (2020-11-30T09:35:37Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。