論文の概要: Detecting LLM-Generated Peer Reviews
- arxiv url: http://arxiv.org/abs/2503.15772v2
- Date: Mon, 19 May 2025 01:40:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.541354
- Title: Detecting LLM-Generated Peer Reviews
- Title(参考訳): LLMによるピアレビューの検出
- Authors: Vishisht Rao, Aounon Kumar, Himabindu Lakkaraju, Nihar B. Shah,
- Abstract要約: 大規模言語モデル(LLM)の台頭は、一部のレビュアーが独立して記述するのではなく、レビューを生成するためにこれらのツールに依存するのではないかという懸念を提起している。
論文のPDFを通じて間接的インジェクションを行うアプローチを考察し,LLMが生成したレビューに隠された透かしを埋め込むよう促す。
本稿では,複数のレビューにまたがって家族的誤り率を制御し,標準的な修正よりも高い統計力を実現する透かし方式と仮説テストを導入する。
- 参考スコア(独自算出の注目度): 37.51215252353345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integrity of peer review is fundamental to scientific progress, but the rise of large language models (LLMs) has introduced concerns that some reviewers may rely on these tools to generate reviews rather than writing them independently. Although some venues have banned LLM-assisted reviewing, enforcement remains difficult as existing detection tools cannot reliably distinguish between fully generated reviews and those merely polished with AI assistance. In this work, we address the challenge of detecting LLM-generated reviews. We consider the approach of performing indirect prompt injection via the paper's PDF, prompting the LLM to embed a covert watermark in the generated review, and subsequently testing for presence of the watermark in the review. We identify and address several pitfalls in na\"ive implementations of this approach. Our primary contribution is a rigorous watermarking and detection framework that offers strong statistical guarantees. Specifically, we introduce watermarking schemes and hypothesis tests that control the family-wise error rate across multiple reviews, achieving higher statistical power than standard corrections such as Bonferroni, while making no assumptions about the nature of human-written reviews. We explore multiple indirect prompt injection strategies--including font-based embedding and obfuscated prompts--and evaluate their effectiveness under various reviewer defense scenarios. Our experiments find high success rates in watermark embedding across various LLMs. We also empirically find that our approach is resilient to common reviewer defenses, and that the bounds on error rates in our statistical tests hold in practice. In contrast, we find that Bonferroni-style corrections are too conservative to be useful in this setting.
- Abstract(参考訳): ピアレビューの完全性は科学的な進歩に欠かせないものであるが、大規模言語モデル(LLM)の台頭により、一部のレビュアーはそれらを独立して書くのではなく、レビューを生成するためにこれらのツールに依存するのではないかという懸念が持ち上がっている。
一部の会場ではLCM支援のレビューを禁止しているが、既存の検出ツールが完全に生成されたレビューと、AIアシストで磨かれただけのレビューとを確実に区別できないため、実施は依然として困難である。
本研究では,LLM生成レビューを検出することの課題に対処する。
本稿では,本論文のPDFによる間接的インジェクションのアプローチを考察し,LLMが生成したレビューに隠された透かしを埋め込むよう促し,その後,レビューに透かしの存在をテストした。
このアプローチの実装において,いくつかの落とし穴を特定し,対処する。
私たちの主な貢献は、強力な統計的保証を提供する厳密な透かしと検出フレームワークです。
具体的には、複数のレビューにまたがって家族的誤り率を制御するための透かし方式と仮説テストを導入し、Bonferroniのような標準修正よりも高い統計的パワーを達成しつつ、人間によるレビューの性質を仮定しない。
フォントベースの埋め込みおよび難読化プロンプトを含む複数の間接的プロンプトインジェクション戦略を探索し、様々なレビュアーディフェンスシナリオ下での有効性を評価する。
実験の結果,様々なLSMに埋め込まれた透かしに高い成功率が得られた。
我々はまた、我々のアプローチが一般的なレビュアーの防御に回復力があること、そして統計的テストにおけるエラー率の限界が実際に成り立つことを実証的に見出した。
対照的に、ボンフェロニスタイルの補正は保守的すぎるので、この設定で有用である。
関連論文リスト
- ReviewAgents: Bridging the Gap Between Human and AI-Generated Paper Reviews [26.031039064337907]
学術論文レビュー(Academic paper review)は、研究コミュニティにおける批判的だが時間を要する課題である。
学術出版物の増加に伴い、レビュープロセスの自動化が大きな課題となっている。
大規模言語モデル(LLM)を利用して学術論文レビューを生成するフレームワークであるReviewAgentsを提案する。
論文 参考訳(メタデータ) (2025-03-11T14:56:58Z) - Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - AI-Driven Review Systems: Evaluating LLMs in Scalable and Bias-Aware Academic Reviews [18.50142644126276]
我々は,人選好のアリーナを用いて,人選好と自動レビューのアライメントを評価する。
我々は、LLMを微調整して人間の好みを予測し、LLM同士の真っ向からの戦いにおいて、どのレビューが好まれるかを予測する。
我々は、公開可能なarXivおよびオープンアクセスのNatureジャーナルのレビューをオンラインで公開し、著者が研究論文をレビューし、改訂し、品質を改善するのに役立つ無料サービスを提供しています。
論文 参考訳(メタデータ) (2024-08-19T19:10:38Z) - WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。
本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。
我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文 参考訳(メタデータ) (2024-06-19T20:13:42Z) - Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。
我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。
我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文 参考訳(メタデータ) (2024-02-18T03:10:39Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。