Fugu-MT 論文翻訳(概要): Detecting LLM-Written Peer Reviews

論文の概要: Detecting LLM-Written Peer Reviews

arxiv url: http://arxiv.org/abs/2503.15772v1
Date: Thu, 20 Mar 2025 01:11:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-21 15:30:52.216994
Title: Detecting LLM-Written Peer Reviews
Title（参考訳）: LLM-Written Peer Reviews の検出
Authors: Vishisht Rao, Aounon Kumar, Himabindu Lakkaraju, Nihar B. Shah,
Abstract要約: 大規模な言語モデル(LLM)を使用して、独立して記述するのではなく、レビューを生成するという、遅延レビュープラクティスの台頭に対する懸念が高まっている。 LLM生成コンテンツを検出する既存のツールは、LLM生成されたレビューと単にLLMによって研磨されたレビューとを区別するために設計されていない。本研究では, LLM生成レビューの識別に簡単なアプローチを用いて, LLMに透かしを埋めるように依頼するために, LLM生成レビューをPDF経由で間接的にインジェクションする。
参考スコア（独自算出の注目度）: 37.51215252353345
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Editors of academic journals and program chairs of conferences require peer reviewers to write their own reviews. However, there is growing concern about the rise of lazy reviewing practices, where reviewers use large language models (LLMs) to generate reviews instead of writing them independently. Existing tools for detecting LLM-generated content are not designed to differentiate between fully LLM-generated reviews and those merely polished by an LLM. In this work, we employ a straightforward approach to identify LLM-generated reviews - doing an indirect prompt injection via the paper PDF to ask the LLM to embed a watermark. Our focus is on presenting watermarking schemes and statistical tests that maintain a bounded family-wise error rate, when a venue evaluates multiple reviews, with a higher power as compared to standard methods like Bonferroni correction. These guarantees hold without relying on any assumptions about human-written reviews. We also consider various methods for prompt injection including font embedding and jailbreaking. We evaluate the effectiveness and various tradeoffs of these methods, including different reviewer defenses. We find a high success rate in the embedding of our watermarks in LLM-generated reviews across models. We also find that our approach is resilient to common reviewer defenses, and that the bounds on error rates in our statistical tests hold in practice while having the power to flag LLM-generated reviews, while Bonferroni correction is infeasible.
Abstract（参考訳）: 学術雑誌の編集者や会議のプログラムチェアの編集者は、ピアレビュアーに独自のレビューを書くよう要求する。しかしながら、遅延レビューのプラクティスの台頭に対する懸念が高まっており、レビュー担当者は、独立して記述するのではなく、大きな言語モデル(LLM)を使用してレビューを生成する。 LLM生成コンテンツを検出する既存のツールは、LLM生成されたレビューと単にLLMによって研磨されたレビューとを区別するために設計されていない。本研究では, LLM生成レビューの識別に簡単なアプローチを用いて, LLMに透かしを埋めるように依頼するために, LLM生成レビューをPDF経由で間接的にインジェクションする。本研究の焦点は,複数回レビュー評価を行う場合の家庭内エラー率を基準とした透かし方式や統計的検査を,ボンフェロニ補正などの標準的な手法と比較して高いパワーで提示することである。これらの保証は、人間によるレビューに関する前提に頼らずに保留される。またフォント埋め込みやジェイルブレイクなど,様々なインジェクション手法についても検討する。これらの手法の有効性とトレードオフについて検討し,その効果について考察した。モデル間でLLM生成レビューに透かしを埋め込むことで高い成功率が得られる。また,本手法は一般的なレビュアーの防御に耐性があり,統計的テストにおける誤差率の限界は,LLM生成レビューにフラグを付ける能力を有する一方で,ボンフェロニ補正は実現不可能であることがわかった。

関連論文リスト

The Feasibility of Topic-Based Watermarking on Academic Peer Reviews [46.71493672772134]
大規模言語モデル(LLM)に対する話題ベース透かし(TBW)の評価を行った。以上の結果から,TBWは非透かし出力と比較してレビュー品質を保ちつつ,パラフレージングに基づく回避を強く示している。
論文参考訳（メタデータ） (2025-05-27T18:09:27Z)
ReviewAgents: Bridging the Gap Between Human and AI-Generated Paper Reviews [26.031039064337907]
学術論文レビュー(Academic paper review)は、研究コミュニティにおける批判的だが時間を要する課題である。学術出版物の増加に伴い、レビュープロセスの自動化が大きな課題となっている。大規模言語モデル(LLM)を利用して学術論文レビューを生成するフレームワークであるReviewAgentsを提案する。
論文参考訳（メタデータ） (2025-03-11T14:56:58Z)
LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文参考訳（メタデータ） (2025-03-04T12:55:07Z)
PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。これは、安全なデプロイメントを保証する上で、大きな課題となる。 PredictaBoardは,新しいベンチマークフレームワークである。
論文参考訳（メタデータ） (2025-02-20T10:52:38Z)
Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。 5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文参考訳（メタデータ） (2024-12-02T16:55:03Z)
Is Your Paper Being Reviewed by an LLM? Investigating AI Text Detectability in Peer Review [8.606381080620789]
既存のAIテキスト検出アルゴリズムが人間の書いたピアレビューと最先端のLLMを区別する能力について検討する。分析の結果,既存の手法では,多くの GPT-4o 書面レビューを偽陽性分類を発生させることなく識別できないことがわかった。偽陽性分類の低レベルにおけるGPT-4o書評の同定において,既存の手法を超越した新たな検出手法を提案する。
論文参考訳（メタデータ） (2024-10-03T22:05:06Z)
AI-Driven Review Systems: Evaluating LLMs in Scalable and Bias-Aware Academic Reviews [18.50142644126276]
我々は,人選好のアリーナを用いて,人選好と自動レビューのアライメントを評価する。我々は、LLMを微調整して人間の好みを予測し、LLM同士の真っ向からの戦いにおいて、どのレビューが好まれるかを予測する。我々は、公開可能なarXivおよびオープンアクセスのNatureジャーナルのレビューをオンラインで公開し、著者が研究論文をレビューし、改訂し、品質を改善するのに役立つ無料サービスを提供しています。
論文参考訳（メタデータ） (2024-08-19T19:10:38Z)
Identifying Inaccurate Descriptions in LLM-generated Code Comments via Test Execution [11.418182511485032]
3つの大言語モデル(LLM)が生成するコメントを評価する。文書をLCMを用いて検証し、文書に基づいてテストを生成し、それらのテストを実行し、通過するかどうかを観察する文書テストの概念を提案する。
論文参考訳（メタデータ） (2024-06-21T02:40:34Z)
WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文参考訳（メタデータ） (2024-06-19T20:13:42Z)
Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文参考訳（メタデータ） (2024-02-18T03:10:39Z)
PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-28T12:33:14Z)
Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文参考訳（メタデータ） (2023-11-10T08:01:23Z)
Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。 LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。 LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文参考訳（メタデータ） (2023-10-15T12:40:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。