論文の概要: Publish to Perish: Prompt Injection Attacks on LLM-Assisted Peer Review
- arxiv url: http://arxiv.org/abs/2508.20863v2
- Date: Fri, 29 Aug 2025 09:37:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 11:39:19.129951
- Title: Publish to Perish: Prompt Injection Attacks on LLM-Assisted Peer Review
- Title(参考訳): Publish to Perish: LLM支援ピアレビューにおけるプロンプトインジェクション攻撃
- Authors: Matteo Gioele Collu, Umberto Salviati, Roberto Confalonieri, Mauro Conti, Giovanni Apruzzese,
- Abstract要約: 大規模言語モデル(LLM)は、科学的なピアレビュープロセスに統合されつつある。
本研究は,著者が論文のPDFに敵対的テキストを埋め込む,隠れたプロンプトインジェクション攻撃の可能性について検討する。
- 参考スコア(独自算出の注目度): 17.869642243653985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly being integrated into the scientific peer-review process, raising new questions about their reliability and resilience to manipulation. In this work, we investigate the potential for hidden prompt injection attacks, where authors embed adversarial text within a paper's PDF to influence the LLM-generated review. We begin by formalising three distinct threat models that envision attackers with different motivations -- not all of which implying malicious intent. For each threat model, we design adversarial prompts that remain invisible to human readers yet can steer an LLM's output toward the author's desired outcome. Using a user study with domain scholars, we derive four representative reviewing prompts used to elicit peer reviews from LLMs. We then evaluate the robustness of our adversarial prompts across (i) different reviewing prompts, (ii) different commercial LLM-based systems, and (iii) different peer-reviewed papers. Our results show that adversarial prompts can reliably mislead the LLM, sometimes in ways that adversely affect a "honest-but-lazy" reviewer. Finally, we propose and empirically assess methods to reduce detectability of adversarial prompts under automated content checks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、科学的ピアレビュープロセスに統合され、その信頼性と操作に対するレジリエンスに関する新たな疑問が提起されている。
本研究は, LLM生成レビューに影響を与えるために, 著者が論文のPDFに敵対的テキストを埋め込む, シークレットインジェクション攻撃の可能性について検討する。
我々はまず、異なる動機を持つ攻撃者を想定する3つの異なる脅威モデルを定式化することから始めます。
各脅威モデルに対して、人間の読者には見えないが LLM の出力を著者の望ましい結果に向けて操ることができる敵のプロンプトを設計する。
ドメイン研究者とのユーザスタディを用いて、LLMからピアレビューを抽出する4つの代表的なレビュープロンプトを導出する。
そして、敵のプロンプトの堅牢性を評価する。
(i)異なるレビュープロンプト
(二)異なる商用LCMベースのシステム及び
(三)異なる査読論文。
以上の結果から,敵対的なプロンプトがLDMを確実に誤解させ,時には「正直だが怠慢な」レビュアーに悪影響を及ぼすことが示唆された。
最後に,自動コンテンツチェックにおいて,敵対的プロンプトの検出可能性を低減する手法を提案し,実証的に評価する。
関連論文リスト
- Paper Summary Attack: Jailbreaking LLMs through LLM Safety Papers [61.57691030102618]
我々は新しいジェイルブレイク手法であるペーパー・サプリメント・アタック(llmnamePSA)を提案する。
攻撃に焦点をあてたLLM安全紙からコンテンツを合成し、敵のプロンプトテンプレートを構築する。
実験では、ベースLLMだけでなく、Deepseek-R1のような最先端の推論モデルにも重大な脆弱性がある。
論文 参考訳(メタデータ) (2025-07-17T18:33:50Z) - Human-Readable Adversarial Prompts: An Investigation into LLM Vulnerabilities Using Situational Context [45.821481786228226]
本研究では,状況文脈を利用した状況駆動型逆転フルプロンプトが効果的であるが,検出がはるかに困難であることを示す。
映画脚本を状況的文脈の枠組みとして利用する攻撃を開発した。
我々は, p-核サンプリングによるAdvPrompterフレームワークを拡張し, 多様な可読テキストを生成する。
論文 参考訳(メタデータ) (2024-12-20T21:43:52Z) - Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。
我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。
当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文 参考訳(メタデータ) (2024-07-19T19:47:26Z) - LLM Whisperer: An Inconspicuous Attack to Bias LLM Responses [28.49203239329941]
命令における微妙なシノニム置換は、LLMが目標概念に言及する可能性(最大78%)を高めることができることを示す。
我々は,1)人間による未修正のプロンプトと区別不能なプロンプト,2)LLMを押して目標概念をより頻繁に推奨すること,3)ユーザが目標概念に気づく可能性が高くなることを示す。
論文 参考訳(メタデータ) (2024-06-07T08:54:55Z) - PromptRobust: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts [76.18347405302728]
本研究は、文字、単語、文、意味といった複数のレベルにわたるプロンプトを標的とした、敵対的なテキスト攻撃を多用する。
相手のプロンプトは、感情分析、自然言語推論、読書理解、機械翻訳、数学の問題解決など様々なタスクに使用される。
以上の結果から,現代の大規模言語モデルでは,敵対的プロンプトに対して頑健ではないことが示唆された。
論文 参考訳(メタデータ) (2023-06-07T15:37:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。