論文の概要: Policies Permitting LLM Use for Polishing Peer Reviews Are Currently Not Enforceable
- arxiv url: http://arxiv.org/abs/2603.20450v1
- Date: Fri, 20 Mar 2026 19:28:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:38.921081
- Title: Policies Permitting LLM Use for Polishing Peer Reviews Are Currently Not Enforceable
- Title(参考訳): LLMによるピアレビューのポーリングを許可するポリシーは、現在施行されていない
- Authors: Rounak Saha, Gurusha Juneja, Dayita Chaudhuri, Naveeja Sajeevan, Nihar B Shah, Danish Pruthi,
- Abstract要約: 科学会議や雑誌は、最近、ピアレビュアーによるLSMの使用を禁じる政策を制定した。
我々は、複数のレベルの人間とAIのコラボレーションをシミュレートしたピアレビューのデータセットを収集し、5つの最先端検出器を評価する。
我々の分析によると、全ての検出器は、LLMが収集したレビューのごく一部をAI生成と誤分類し、学術的不正行為の誤認を危険にさらしている。
- 参考スコア(独自算出の注目度): 17.525659482226875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A number of scientific conferences and journals have recently enacted policies that prohibit LLM usage by peer reviewers, except for polishing, paraphrasing, and grammar correction of otherwise human-written reviews. But, are these policies enforceable? To answer this question, we assemble a dataset of peer reviews simulating multiple levels of human-AI collaboration, and evaluate five state-of-the-art detectors, including two commercial systems. Our analysis shows that all detectors misclassify a non-trivial fraction of LLM-polished reviews as AI-generated, thereby risking false accusations of academic misconduct. We further investigate whether peer-review-specific signals, including access to the paper manuscript and the constrained domain of scientific writing, can be leveraged to improve detection. While incorporating such signals yields measurable gains in some settings, we identify limitations in each approach and find that none meets the accuracy standards required for identifying AI use in peer reviews. Importantly, our results suggest that recent public estimates of AI use in peer reviews through the use of AI-text detectors should be interpreted with caution, as current detectors misclassify mixed reviews (collaborative human-AI outputs) as fully AI generated, potentially overstating the extent of policy violations.
- Abstract(参考訳): 科学会議や雑誌は、最近、人間によるレビューの研磨、言い換え、文法修正を除いて、ピアレビュアーによるLLMの使用を禁じる政策を制定した。
しかし、これらのポリシーは強制可能か?
そこで我々は,複数のレベルの人間とAIのコラボレーションをシミュレートしたピアレビューのデータセットを収集し,二つの商用システムを含む5つの最先端検出器を評価した。
我々の分析によると、全ての検出器は、LLMが収集したレビューのごく一部をAI生成と誤分類し、学術的不正行為の誤認を危険にさらしている。
さらに、論文の原稿や論文の制約領域へのアクセスを含むピアレビュー固有の信号が、検出を改善するために活用できるかどうかについても検討する。
このような信号を導入すると、いくつかの設定で測定可能な利得が得られるが、それぞれのアプローチの制限を特定し、ピアレビューでAIの使用を特定するのに必要な精度基準を満たさないことに気付く。
重要なことは、我々の研究結果は、AIテキスト検出によるピアレビューにおけるAI使用の最近の公的な評価は、現在の検知器が混合レビュー(協調AI出力)を完全なAI生成として誤分類し、ポリシー違反の程度を過大評価しているため、慎重に解釈する必要があることを示唆している。
関連論文リスト
- BadScientist: Can a Research Agent Write Convincing but Unsound Papers that Fool LLM Reviewers? [21.78901120638025]
製造指向の紙生成エージェントがマルチモデルLCMレビューシステムを欺くことができるかどうかを考察する。
我々のジェネレータは、実際の実験を必要としないプレゼンテーション操作戦略を採用している。
健全な集約数学にもかかわらず、整合性検査は体系的に失敗する。
論文 参考訳(メタデータ) (2025-10-20T18:37:11Z) - CoCoNUTS: Concentrating on Content while Neglecting Uninformative Textual Styles for AI-Generated Peer Review Detection [60.52240468810558]
我々は、AI生成ピアレビューの詳細なデータセットの上に構築されたコンテンツ指向ベンチマークであるCoCoNUTSを紹介する。
また、マルチタスク学習フレームワークを介してAIレビュー検出を行うCoCoDetを開発し、レビューコンテンツにおけるAIのより正確で堅牢な検出を実現する。
論文 参考訳(メタデータ) (2025-08-28T06:03:11Z) - Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors [77.82885394684202]
テキスト検出を効果的に欺く訓練不要な方法である textbfContrastive textbfParaphrase textbfAttack (CoPA) を提案する。
CoPAは、大規模言語モデルによって生成される人間のような分布とは対照的に、補助的な機械的な単語分布を構築している。
我々の理論的分析は、提案された攻撃の優越性を示唆している。
論文 参考訳(メタデータ) (2025-05-21T10:08:39Z) - Is Your Paper Being Reviewed by an LLM? Benchmarking AI Text Detection in Peer Review [6.20631177269082]
ピアレビュープロセスに対する新たなリスクは、Negligentレビュアーが論文をレビューするために大きな言語モデル(LLM)に依存することだ。
我々は、AIで書かれたピアレビューを、対応する人間のレビューと組み合わせた合計788,984件の包括的データセットを導入する。
我々は、この新たなリソースを使用して、既存の18のAIテキスト検出アルゴリズムが、人間が完全に書いたピアレビューと、最先端のLLMを区別する能力を評価する。
論文 参考訳(メタデータ) (2025-02-26T23:04:05Z) - Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - Is Your Paper Being Reviewed by an LLM? Investigating AI Text Detectability in Peer Review [8.606381080620789]
既存のAIテキスト検出アルゴリズムが人間の書いたピアレビューと最先端のLLMを区別する能力について検討する。
分析の結果,既存の手法では,多くの GPT-4o 書面レビューを偽陽性分類を発生させることなく識別できないことがわかった。
偽陽性分類の低レベルにおけるGPT-4o書評の同定において,既存の手法を超越した新たな検出手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T22:05:06Z) - Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。
盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。
我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。