論文の概要: Detecting LLM-Written Peer Reviews
- arxiv url: http://arxiv.org/abs/2503.15772v1
- Date: Thu, 20 Mar 2025 01:11:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:34:36.855249
- Title: Detecting LLM-Written Peer Reviews
- Title(参考訳): LLM-Written Peer Reviews の検出
- Authors: Vishisht Rao, Aounon Kumar, Himabindu Lakkaraju, Nihar B. Shah,
- Abstract要約: 大規模な言語モデル(LLM)を使用して、独立して記述するのではなく、レビューを生成するという、遅延レビュープラクティスの台頭に対する懸念が高まっている。
LLM生成コンテンツを検出する既存のツールは、LLM生成されたレビューと単にLLMによって研磨されたレビューとを区別するために設計されていない。
本研究では, LLM生成レビューの識別に簡単なアプローチを用いて, LLMに透かしを埋めるように依頼するために, LLM生成レビューをPDF経由で間接的にインジェクションする。
- 参考スコア(独自算出の注目度): 37.51215252353345
- License:
- Abstract: Editors of academic journals and program chairs of conferences require peer reviewers to write their own reviews. However, there is growing concern about the rise of lazy reviewing practices, where reviewers use large language models (LLMs) to generate reviews instead of writing them independently. Existing tools for detecting LLM-generated content are not designed to differentiate between fully LLM-generated reviews and those merely polished by an LLM. In this work, we employ a straightforward approach to identify LLM-generated reviews - doing an indirect prompt injection via the paper PDF to ask the LLM to embed a watermark. Our focus is on presenting watermarking schemes and statistical tests that maintain a bounded family-wise error rate, when a venue evaluates multiple reviews, with a higher power as compared to standard methods like Bonferroni correction. These guarantees hold without relying on any assumptions about human-written reviews. We also consider various methods for prompt injection including font embedding and jailbreaking. We evaluate the effectiveness and various tradeoffs of these methods, including different reviewer defenses. We find a high success rate in the embedding of our watermarks in LLM-generated reviews across models. We also find that our approach is resilient to common reviewer defenses, and that the bounds on error rates in our statistical tests hold in practice while having the power to flag LLM-generated reviews, while Bonferroni correction is infeasible.
- Abstract(参考訳): 学術雑誌の編集者や会議のプログラムチェアの編集者は、ピアレビュアーに独自のレビューを書くよう要求する。
しかしながら、遅延レビューのプラクティスの台頭に対する懸念が高まっており、レビュー担当者は、独立して記述するのではなく、大きな言語モデル(LLM)を使用してレビューを生成する。
LLM生成コンテンツを検出する既存のツールは、LLM生成されたレビューと単にLLMによって研磨されたレビューとを区別するために設計されていない。
本研究では, LLM生成レビューの識別に簡単なアプローチを用いて, LLMに透かしを埋めるように依頼するために, LLM生成レビューをPDF経由で間接的にインジェクションする。
本研究の焦点は,複数回レビュー評価を行う場合の家庭内エラー率を基準とした透かし方式や統計的検査を,ボンフェロニ補正などの標準的な手法と比較して高いパワーで提示することである。
これらの保証は、人間によるレビューに関する前提に頼らずに保留される。
またフォント埋め込みやジェイルブレイクなど,様々なインジェクション手法についても検討する。
これらの手法の有効性とトレードオフについて検討し,その効果について考察した。
モデル間でLLM生成レビューに透かしを埋め込むことで高い成功率が得られる。
また,本手法は一般的なレビュアーの防御に耐性があり,統計的テストにおける誤差率の限界は,LLM生成レビューにフラグを付ける能力を有する一方で,ボンフェロニ補正は実現不可能であることがわかった。
関連論文リスト
- Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - AI-Driven Review Systems: Evaluating LLMs in Scalable and Bias-Aware Academic Reviews [18.50142644126276]
我々は,人選好のアリーナを用いて,人選好と自動レビューのアライメントを評価する。
我々は、LLMを微調整して人間の好みを予測し、LLM同士の真っ向からの戦いにおいて、どのレビューが好まれるかを予測する。
我々は、公開可能なarXivおよびオープンアクセスのNatureジャーナルのレビューをオンラインで公開し、著者が研究論文をレビューし、改訂し、品質を改善するのに役立つ無料サービスを提供しています。
論文 参考訳(メタデータ) (2024-08-19T19:10:38Z) - WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。
本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。
我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文 参考訳(メタデータ) (2024-06-19T20:13:42Z) - Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。
我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。
我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文 参考訳(メタデータ) (2024-02-18T03:10:39Z) - Reviewer2: Optimizing Review Generation Through Prompt Generation [28.050468098801872]
本稿では、Reviewer2と呼ばれる効率的な2段階レビュー生成フレームワークを提案する。
従来の作業とは異なり、このアプローチは、レビューが対処する可能性のある側面の分布を明示的にモデル化する。
アスペクトプロンプトでアノテートした27k論文と99kレビューの大規模なレビューデータセットを生成します。
論文 参考訳(メタデータ) (2024-02-16T18:43:10Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。