論文の概要: PromptArmor: Simple yet Effective Prompt Injection Defenses
- arxiv url: http://arxiv.org/abs/2507.15219v1
- Date: Mon, 21 Jul 2025 03:41:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.244446
- Title: PromptArmor: Simple yet Effective Prompt Injection Defenses
- Title(参考訳): PromptArmor:シンプルで効果的なPrompt注入防御
- Authors: Tianneng Shi, Kaijie Zhu, Zhun Wang, Yuqi Jia, Will Cai, Weida Liang, Haonan Wang, Hend Alzahrani, Joshua Lu, Kenji Kawaguchi, Basel Alomair, Xuandong Zhao, William Yang Wang, Neil Gong, Wenbo Guo, Dawn Song,
- Abstract要約: PromptArmorは簡便で効果的なインジェクション攻撃対策である。
PromptArmorは、市販のLCMに、潜在的に注入されたプロンプトを検出し削除するよう促す。
以上の結果から, PromptArmorはインジェクションプロンプトを正確に識別・除去できることがわかった。
- 参考スコア(独自算出の注目度): 92.64476186023197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their potential, recent research has demonstrated that LLM agents are vulnerable to prompt injection attacks, where malicious prompts are injected into the agent's input, causing it to perform an attacker-specified task rather than the intended task provided by the user. In this paper, we present PromptArmor, a simple yet effective defense against prompt injection attacks. Specifically, PromptArmor prompts an off-the-shelf LLM to detect and remove potential injected prompts from the input before the agent processes it. Our results show that PromptArmor can accurately identify and remove injected prompts. For example, using GPT-4o, GPT-4.1, or o4-mini, PromptArmor achieves both a false positive rate and a false negative rate below 1% on the AgentDojo benchmark. Moreover, after removing injected prompts with PromptArmor, the attack success rate drops to below 1%. We also demonstrate PromptArmor's effectiveness against adaptive attacks and explore different strategies for prompting an LLM. We recommend that PromptArmor be adopted as a standard baseline for evaluating new defenses against prompt injection attacks.
- Abstract(参考訳): これらの可能性にもかかわらず、最近の研究はLSMエージェントが、悪意のあるプロンプトがエージェントの入力に注入されるようなインジェクション攻撃に対して脆弱であることを示した。
本稿では,即発注射攻撃に対する簡易かつ効果的な防御法であるPromptArmorを提案する。
具体的には、PromptArmorは、エージェントが処理する前に入力から潜在的に注入されたプロンプトを検出し削除するよう、既製のLLMに促す。
以上の結果から, PromptArmorはインジェクションプロンプトを正確に識別・除去できることがわかった。
例えば、GPT-4o、GPT-4.1、またはo4-miniを使用して、PromptArmorはAgentDojoベンチマークで偽陽性率と偽陰率の両方を達成する。
さらに、PromptArmorでインジェクトプロンプトを削除した後、攻撃成功率は1%以下に低下する。
また,適応攻撃に対する PromptArmor の有効性を実証し,LLM を促進するための様々な戦略を探求する。
我々は,PmptArmorをインジェクション攻撃に対する新しい防御評価基準として採用することを推奨する。
関連論文リスト
- TopicAttack: An Indirect Prompt Injection Attack via Topic Transition [71.81906608221038]
大規模言語モデル(LLM)は間接的なインジェクション攻撃に対して脆弱である。
提案するTopicAttackは,LLMに生成した遷移プロンプトを生成し,徐々にトピックをインジェクション命令にシフトさせる。
提案手法は, インジェクトからオリジナルへのアテンション比が高く, 成功確率が高く, ベースライン法よりもはるかに高い比を達成できることがわかった。
論文 参考訳(メタデータ) (2025-07-18T06:23:31Z) - To Protect the LLM Agent Against the Prompt Injection Attack with Polymorphic Prompt [5.8935359767204805]
本稿では,ポリモルフィック・プロンプト・アセンブラという,新しい軽量防衛機構を提案する。
アプローチは、インジェクションのインジェクションがシステムプロンプトの構造を推測し、壊す必要があるという洞察に基づいている。
PPAは攻撃者がプロンプト構造を予測するのを防ぎ、性能を損なうことなくセキュリティを向上させる。
論文 参考訳(メタデータ) (2025-06-06T04:50:57Z) - CachePrune: Neural-Based Attribution Defense Against Indirect Prompt Injection Attacks [47.62236306990252]
大規模言語モデル (LLM) は間接的なインジェクション攻撃の影響を受けやすい。
この脆弱性は、プロンプト内のデータと命令を区別できないLLMが原因である。
本稿では,タスクトリガリングニューロンの識別と解析により,この攻撃を防御するCachePruneを提案する。
論文 参考訳(メタデータ) (2025-04-29T23:42:21Z) - DataSentinel: A Game-Theoretic Detection of Prompt Injection Attacks [101.52204404377039]
LLM統合されたアプリケーションとエージェントは、インジェクション攻撃に弱い。
検出方法は、入力が注入プロンプトによって汚染されているかどうかを判定することを目的とする。
本研究では,迅速なインジェクション攻撃を検出するゲーム理論手法であるDataSentinelを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:26:21Z) - MELON: Provable Defense Against Indirect Prompt Injection Attacks in AI Agents [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱であり、ツール検索情報に埋め込まれた悪意のあるタスクはエージェントをリダイレクトして不正なアクションを取ることができる。
マスク機能によって修正されたマスク付きユーザでエージェントの軌道を再実行することで攻撃を検知する新しいIPIディフェンスであるMELONを提案する。
論文 参考訳(メタデータ) (2025-02-07T18:57:49Z) - Enhancing Prompt Injection Attacks to LLMs via Poisoning Alignment [35.62055590612484]
攻撃者はLSMのアライメントプロセスに毒を盛ることで、即時注射攻撃の成功を促進できることを示す。
具体的には,有毒なアライメントサンプルを戦略的に生成する手法であるPoisonedAlignを提案する。
論文 参考訳(メタデータ) (2024-10-18T18:52:16Z) - Maatphor: Automated Variant Analysis for Prompt Injection Attacks [7.93367270029538]
現在のプロンプトインジェクション技術に対する防御のベストプラクティスは、システムにガードレールを追加することである。
本稿では,既知のプロンプトインジェクション攻撃の自動変種解析において,ディフェンダーを支援するツールを提案する。
論文 参考訳(メタデータ) (2023-12-12T14:22:20Z) - Formalizing and Benchmarking Prompt Injection Attacks and Defenses [59.57908526441172]
本稿では,迅速なインジェクション攻撃を形式化するフレームワークを提案する。
フレームワークに基づいて、既存のものを組み合わせることで、新たな攻撃を設計します。
我々の研究は、将来のプロンプトインジェクション攻撃と防御を定量的に評価するための共通のベンチマークを提供する。
論文 参考訳(メタデータ) (2023-10-19T15:12:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。