論文の概要: WASP: Benchmarking Web Agent Security Against Prompt Injection Attacks
- arxiv url: http://arxiv.org/abs/2504.18575v2
- Date: Wed, 30 Apr 2025 19:25:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.883337
- Title: WASP: Benchmarking Web Agent Security Against Prompt Injection Attacks
- Title(参考訳): WASP: プロンプトインジェクション攻撃に対するWebエージェントのセキュリティのベンチマーク
- Authors: Ivan Evtimov, Arman Zharmagambetov, Aaron Grattafiori, Chuan Guo, Kamalika Chaudhuri,
- Abstract要約: WASPと呼ばれるベンチマークでは、現実的なWebエージェントのハイジャックと、それらをテストするための独立した環境が導入されている。
我々の評価は、高度な推論能力を持つモデルに支えられたAIエージェントでさえ、低便宜な人手によるプロンプトインジェクションの影響を受けやすいことを示している。
エージェントは16~86%の時間で敵の指示を実行開始するが、0~17%の時間しか目標を達成できない。
- 参考スコア(独自算出の注目度): 36.97842000562324
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Web navigation AI agents use language-and-vision foundation models to enhance productivity but these models are known to be susceptible to indirect prompt injections that get them to follow instructions different from the legitimate user's. Existing explorations of this threat applied to web agents often focus on a single isolated adversarial goal, test with injected instructions that are either too easy or not truly malicious, and often give the adversary unreasonable access. In order to better focus adversarial research, we construct a new benchmark called WASP (Web Agent Security against Prompt injection attacks) that introduces realistic web agent hijacking objectives and an isolated environment to test them in that does not affect real users or the live web. As part of WASP, we also develop baseline attacks against popular web agentic systems (VisualWebArena, Claude Computer Use, etc.) instantiated with various state-of-the-art models. Our evaluation shows that even AI agents backed by models with advanced reasoning capabilities and by models with instruction hierarchy mitigations are susceptible to low-effort human-written prompt injections. However, the realistic objectives in WASP also allow us to observe that agents are currently not capable enough to complete the goals of attackers end-to-end. Agents begin executing the adversarial instruction between 16 and 86% of the time but only achieve the goal between 0 and 17% of the time. Based on these findings, we argue that adversarial researchers should demonstrate stronger attacks that more consistently maintain control over the agent given realistic constraints on the adversary's power.
- Abstract(参考訳): WebナビゲーションAIエージェントは、言語とビジョンのファンデーションモデルを使用して生産性を向上させるが、これらのモデルは間接的なインジェクションの影響を受けやすいことが知られている。
この脅威をWebエージェントに適用した既存の調査は、多くの場合、単一の孤立した敵の目標に焦点を合わせ、注入された命令で、あまりに簡単すぎるか真に悪意がないかを試し、しばしば敵に不当なアクセスを与える。
WASP(Web Agent Security against Prompt Injection attack)と呼ばれる,現実的なWebエージェントのハイジャックと,実際のユーザやライブWebに影響を与えない独立した環境を実現するためのベンチマークを構築した。
WASPの一部として、様々な最先端モデルでインスタンス化された一般的なWebエージェントシステム(VisualWebArena、Claude Computer Useなど)に対するベースラインアタックも開発しています。
我々の評価では、高度な推論能力を持つモデルや、命令階層を緩和したモデルに支えられたAIエージェントでさえ、低能率な人書きプロンプトインジェクションの影響を受けやすいことが示されている。
しかし、WASPの現実的な目標は、現在エージェントが攻撃者の目標をエンドツーエンドで達成するのに十分な能力を持っていないことを観察することを可能にします。
エージェントは16~86%の時間で敵の指示を実行開始するが、0~17%の時間しか目標を達成できない。
これらの知見に基づき、敵の力に現実的な制約を課すため、敵の研究者は、エージェントのコントロールをより一貫して維持する強力な攻撃を実証すべきである、と論じる。
関連論文リスト
- MELON: Indirect Prompt Injection Defense via Masked Re-execution and Tool Comparison [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱である。
我々は新しいIPI防御であるMELONを提示する。
MELONは攻撃防止と実用保存の両方においてSOTA防御に優れていた。
論文 参考訳(メタデータ) (2025-02-07T18:57:49Z) - Attacking Vision-Language Computer Agents via Pop-ups [61.744008541021124]
VLMエージェントは、慎重に設計された対向的なポップアップによって容易に攻撃できることを示す。
この混乱は、エージェントが通常のタスクを実行する代わりにポップアップをクリックさせる。
論文 参考訳(メタデータ) (2024-11-04T18:56:42Z) - AdvWeb: Controllable Black-box Attacks on VLM-powered Web Agents [22.682464365220916]
AdvWebは、Webエージェント向けに設計された新しいブラックボックス攻撃フレームワークである。
DPOを用いた逆プロンプトモデルの訓練と最適化を行う。
従来のアプローチとは異なり、我々の逆文字列注入はステルスと制御を維持している。
論文 参考訳(メタデータ) (2024-10-22T20:18:26Z) - EIA: Environmental Injection Attack on Generalist Web Agents for Privacy Leakage [40.82238259404402]
敵環境におけるジェネラリストWebエージェントのプライバシーリスクに関する最初の研究を行う。
まず,Webサイト上での攻撃に対する現実的な脅威モデルを提示し,ユーザ固有のPIIを盗むか,あるいはユーザ要求全体に対して,敵対的な2つのターゲットを検討する。
我々は、Mind2Webから様々なPIIカテゴリを含む177のアクションステップを収集し、これまでで最も有能なジェネラリストWebエージェントフレームワークの1つを使用して実験を行う。
論文 参考訳(メタデータ) (2024-09-17T15:49:44Z) - AgentDojo: A Dynamic Environment to Evaluate Prompt Injection Attacks and Defenses for LLM Agents [27.701301913159067]
我々は、信頼できないデータ上でツールを実行するエージェントの評価フレームワークであるAgentDojoを紹介した。
AgentDojoは静的テストスイートではなく、新しいエージェントタスク、ディフェンス、アダプティブアタックを設計、評価するための環境である。
AgentDojoには97の現実的なタスク、629のセキュリティテストケースと、文献からのさまざまな攻撃および防御パラダイムが組み込まれています。
論文 参考訳(メタデータ) (2024-06-19T08:55:56Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - WIPI: A New Web Threat for LLM-Driven Web Agents [28.651763099760664]
我々は、Web Agentを間接的に制御し、公開されているWebページに埋め込まれた悪意ある命令を実行する、新しい脅威WIPIを導入する。
WIPIを成功させるためには、ブラックボックス環境で動作させる。
提案手法は,純ブラックボックスシナリオにおいても平均攻撃成功率(ASR)が90%を超えることを達成している。
論文 参考訳(メタデータ) (2024-02-26T19:01:54Z) - Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。
既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。
以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文 参考訳(メタデータ) (2022-07-20T19:49:09Z) - Automating Privilege Escalation with Deep Reinforcement Learning [71.87228372303453]
本研究では,エージェントの訓練に深層強化学習を用いることで,悪意あるアクターの潜在的な脅威を実証する。
本稿では,最先端の強化学習アルゴリズムを用いて,局所的な特権エスカレーションを行うエージェントを提案する。
我々のエージェントは、実際の攻撃センサーデータを生成し、侵入検知システムの訓練と評価に利用できる。
論文 参考訳(メタデータ) (2021-10-04T12:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。