論文の概要: "Give a Positive Review Only": An Early Investigation Into In-Paper Prompt Injection Attacks and Defenses for AI Reviewers
- arxiv url: http://arxiv.org/abs/2511.01287v1
- Date: Mon, 03 Nov 2025 07:04:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.150884
- Title: "Give a Positive Review Only": An Early Investigation Into In-Paper Prompt Injection Attacks and Defenses for AI Reviewers
- Title(参考訳): 肯定的レビューのみを」:AIレビュアーに対するイン・ペーパー・プロンプト・インジェスト・インジェクションとディフェンスの早期調査
- Authors: Qin Zhou, Zhexin Zhang, Zhi Li, Limin Sun,
- Abstract要約: 最近の報告では、いくつかの論文にはAIレビュアーを操作するために設計された、隠された、注入されたプロンプトが含まれていることが明らかにされている。
本研究では,(1)固定インジェクションプロンプトを利用する静的アタックと,(2)シミュレーションレビュアーモデルに対するインジェクションプロンプトを最適化して有効性を最大化する反復アタックの2つのクラスを提案する。
我々の発見は、AI支援ピアレビューにおいて、迅速な注入脅威に対する注意と厳格な保護の必要性を浮き彫りにした。
- 参考スコア(独自算出の注目度): 23.25377752659151
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid advancement of AI models, their deployment across diverse tasks has become increasingly widespread. A notable emerging application is leveraging AI models to assist in reviewing scientific papers. However, recent reports have revealed that some papers contain hidden, injected prompts designed to manipulate AI reviewers into providing overly favorable evaluations. In this work, we present an early systematic investigation into this emerging threat. We propose two classes of attacks: (1) static attack, which employs a fixed injection prompt, and (2) iterative attack, which optimizes the injection prompt against a simulated reviewer model to maximize its effectiveness. Both attacks achieve striking performance, frequently inducing full evaluation scores when targeting frontier AI reviewers. Furthermore, we show that these attacks are robust across various settings. To counter this threat, we explore a simple detection-based defense. While it substantially reduces the attack success rate, we demonstrate that an adaptive attacker can partially circumvent this defense. Our findings underscore the need for greater attention and rigorous safeguards against prompt-injection threats in AI-assisted peer review.
- Abstract(参考訳): AIモデルの急速な進歩により、さまざまなタスクにまたがるデプロイメントが広まりつつある。
注目に値する応用は、科学論文のレビューを支援するためにAIモデルを活用することだ。
しかし、最近の報告では、いくつかの論文にはAIレビュアーを操作するために設計された隠されたインジェクトプロンプトが含まれていることが明らかにされている。
本研究は,この新興脅威について,早期に体系的な調査を行ったものである。
本研究では,(1)固定インジェクションプロンプトを利用する静的アタックと,(2)シミュレーションレビュアーモデルに対するインジェクションプロンプトを最適化して有効性を最大化する反復アタックの2つのクラスを提案する。
両方の攻撃は、フロンティアAIレビュアーをターゲットとする場合、しばしば完全な評価スコアを誘導する、顕著なパフォーマンスを達成する。
さらに、これらの攻撃は様々な設定で堅牢であることを示す。
この脅威に対処するため、我々は単純な検出に基づく防御を探索する。
攻撃成功率を大幅に低下させるが、適応攻撃者がこの防御を部分的に回避できることを実証する。
我々の発見は、AI支援ピアレビューにおいて、迅速な注入脅威に対する注意と厳格な保護の必要性を浮き彫りにした。
関連論文リスト
- The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and Prompt Injections [74.60337113759313]
現在のジェイルブレイクとプロンプトインジェクションに対する防御は、通常、有害な攻撃文字列の静的セットに対して評価される。
我々は,この評価プロセスに欠陥があることを論じる。代わりに,攻撃戦略を明示的に修正したアダプティブアタッカーに対する防御を,防衛設計に対抗して評価すべきである。
論文 参考訳(メタデータ) (2025-10-10T05:51:04Z) - Early Approaches to Adversarial Fine-Tuning for Prompt Injection Defense: A 2022 Study of GPT-3 and Contemporary Models [2.6947234418203347]
本稿は2022年に行われた大規模言語モデルにおけるインジェクション攻撃に対する防御に関する初期の研究について述べる。
本研究では,これらの攻撃をどうやって構築し,様々な大規模言語モデルで検証し,その有効性を比較する。
そこで我々は,Adversarial Fine-Tuningと呼ばれる新しい防御手法を提案し,評価する。
論文 参考訳(メタデータ) (2025-09-15T19:14:01Z) - Benchmarking Misuse Mitigation Against Covert Adversaries [80.74502950627736]
既存の言語モデルの安全性評価は、オーバースト攻撃と低レベルのタスクに重点を置いている。
我々は、隠蔽攻撃と対応する防御の評価を自動化するデータ生成パイプラインである、ステートフルディフェンスのためのベンチマーク(BSD)を開発した。
評価の結果,分解攻撃は有効な誤用防止剤であり,その対策としてステートフルディフェンスを強調した。
論文 参考訳(メタデータ) (2025-06-06T17:33:33Z) - A Critical Evaluation of Defenses against Prompt Injection Attacks [95.81023801370073]
大型言語モデル (LLM) はインジェクション攻撃に弱い。
いくつかの防衛策が提案され、しばしばこれらの攻撃をうまく緩和すると主張した。
既存の研究は、これらの防衛を評価するための原則的なアプローチを欠いていると論じる。
論文 参考訳(メタデータ) (2025-05-23T19:39:56Z) - A Framework for Evaluating Emerging Cyberattack Capabilities of AI [11.595840449117052]
本研究は,(1)エンド・ツー・エンド・エンド・アタック・チェーンの検証,(2)AI脅威評価のギャップの同定,(3)目標とする緩和の優先順位付けを支援する,という制約に対処する新たな評価フレームワークを導入する。
我々は、GoogleのThreat Intelligence Groupがカタログ化したサイバーインシデントにAIが関与した12,000件以上の実世界の事例を分析し、7つの代表的なアタックチェーンのアーキタイプをキュレートした。
我々は、特定の攻撃段階にわたって攻撃能力を増幅するAIの可能性について報告し、防御の優先順位付けを推奨する。
論文 参考訳(メタデータ) (2025-03-14T23:05:02Z) - MELON: Provable Defense Against Indirect Prompt Injection Attacks in AI Agents [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱であり、ツール検索情報に埋め込まれた悪意のあるタスクはエージェントをリダイレクトして不正なアクションを取ることができる。
マスク機能によって修正されたマスク付きユーザでエージェントの軌道を再実行することで攻撃を検知する新しいIPIディフェンスであるMELONを提案する。
論文 参考訳(メタデータ) (2025-02-07T18:57:49Z) - Exploiting Machine Unlearning for Backdoor Attacks in Deep Learning
System [4.9233610638625604]
マシンアンラーニングに基づく新しいブラックボックスバックドア攻撃を提案する。
攻撃者はまず、毒や緩和データを含む慎重に設計されたサンプルでトレーニングセットを強化し、良心のモデルを訓練する。
そして、攻撃者は、モデルの関連するデータの影響を取り除くために、未学習のサンプルに対するリクエストをポストし、徐々に隠れたバックドアを活性化する。
論文 参考訳(メタデータ) (2023-09-12T02:42:39Z) - Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。
既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。
以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文 参考訳(メタデータ) (2022-07-20T19:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。