論文の概要: WASP: Benchmarking Web Agent Security Against Prompt Injection Attacks
- arxiv url: http://arxiv.org/abs/2504.18575v3
- Date: Fri, 16 May 2025 22:42:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.62099
- Title: WASP: Benchmarking Web Agent Security Against Prompt Injection Attacks
- Title(参考訳): WASP: プロンプトインジェクション攻撃に対するWebエージェントのセキュリティのベンチマーク
- Authors: Ivan Evtimov, Arman Zharmagambetov, Aaron Grattafiori, Chuan Guo, Kamalika Chaudhuri,
- Abstract要約: 我々は、Pmptインジェクション攻撃に対するWeb Agent Securityのエンドツーエンド評価のための新しいベンチマークであるWASPを紹介する。
高度な推論能力を含むトップレベルのAIモデルでさえ、単純で低便なヒューマンインジェクションによって騙される可能性があることを示す。
攻撃は最大86%で部分的には成功したが、最先端のエージェントでさえ、攻撃者の目標を完全に満たすのに苦労することが多い。
- 参考スコア(独自算出の注目度): 36.97842000562324
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Autonomous UI agents powered by AI have tremendous potential to boost human productivity by automating routine tasks such as filing taxes and paying bills. However, a major challenge in unlocking their full potential is security, which is exacerbated by the agent's ability to take action on their user's behalf. Existing tests for prompt injections in web agents either over-simplify the threat by testing unrealistic scenarios or giving the attacker too much power, or look at single-step isolated tasks. To more accurately measure progress for secure web agents, we introduce WASP -- a new publicly available benchmark for end-to-end evaluation of Web Agent Security against Prompt injection attacks. Evaluating with WASP shows that even top-tier AI models, including those with advanced reasoning capabilities, can be deceived by simple, low-effort human-written injections in very realistic scenarios. Our end-to-end evaluation reveals a previously unobserved insight: while attacks partially succeed in up to 86% of the case, even state-of-the-art agents often struggle to fully complete the attacker goals -- highlighting the current state of security by incompetence.
- Abstract(参考訳): AIを活用した自律的なUIエージェントは、税金や支払い請求などの日常的なタスクを自動化することによって、人間の生産性を高める大きな可能性を秘めている。
しかし、最大限の可能性を解き放つ上での大きな課題はセキュリティであり、これはエージェントがユーザに代わって行動を起こす能力によって悪化する。
既存のWebエージェントのプロンプトインジェクションのテストは、非現実的なシナリオをテストすることで脅威を過度に単純化する。
セキュアなWebエージェントの進捗をより正確に測定するために、私たちは、Pmptインジェクション攻撃に対するWeb Agent Securityのエンドツーエンド評価のための新しい公開ベンチマークであるWASPを紹介します。
WASPによる評価は、高度な推論能力を含むトップレベルのAIモデルでさえ、非常に現実的なシナリオにおいて、単純で低便なヒューマンインジェクションによって騙される可能性があることを示している。
攻撃は最大86%のケースで部分的には成功したが、最先端のエージェントでさえ攻撃者の目標を完全に満たすのに苦労することが多く、無能さによる現在のセキュリティの状態を浮き彫りにしている。
関連論文リスト
- MELON: Indirect Prompt Injection Defense via Masked Re-execution and Tool Comparison [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱である。
我々は新しいIPI防御であるMELONを提示する。
MELONは攻撃防止と実用保存の両方においてSOTA防御に優れていた。
論文 参考訳(メタデータ) (2025-02-07T18:57:49Z) - Attacking Vision-Language Computer Agents via Pop-ups [61.744008541021124]
VLMエージェントは、慎重に設計された対向的なポップアップによって容易に攻撃できることを示す。
この混乱は、エージェントが通常のタスクを実行する代わりにポップアップをクリックさせる。
論文 参考訳(メタデータ) (2024-11-04T18:56:42Z) - AdvWeb: Controllable Black-box Attacks on VLM-powered Web Agents [22.682464365220916]
AdvWebは、Webエージェント向けに設計された新しいブラックボックス攻撃フレームワークである。
DPOを用いた逆プロンプトモデルの訓練と最適化を行う。
従来のアプローチとは異なり、我々の逆文字列注入はステルスと制御を維持している。
論文 参考訳(メタデータ) (2024-10-22T20:18:26Z) - EIA: Environmental Injection Attack on Generalist Web Agents for Privacy Leakage [40.82238259404402]
敵環境におけるジェネラリストWebエージェントのプライバシーリスクに関する最初の研究を行う。
まず,Webサイト上での攻撃に対する現実的な脅威モデルを提示し,ユーザ固有のPIIを盗むか,あるいはユーザ要求全体に対して,敵対的な2つのターゲットを検討する。
我々は、Mind2Webから様々なPIIカテゴリを含む177のアクションステップを収集し、これまでで最も有能なジェネラリストWebエージェントフレームワークの1つを使用して実験を行う。
論文 参考訳(メタデータ) (2024-09-17T15:49:44Z) - AgentDojo: A Dynamic Environment to Evaluate Prompt Injection Attacks and Defenses for LLM Agents [27.701301913159067]
我々は、信頼できないデータ上でツールを実行するエージェントの評価フレームワークであるAgentDojoを紹介した。
AgentDojoは静的テストスイートではなく、新しいエージェントタスク、ディフェンス、アダプティブアタックを設計、評価するための環境である。
AgentDojoには97の現実的なタスク、629のセキュリティテストケースと、文献からのさまざまな攻撃および防御パラダイムが組み込まれています。
論文 参考訳(メタデータ) (2024-06-19T08:55:56Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - WIPI: A New Web Threat for LLM-Driven Web Agents [28.651763099760664]
我々は、Web Agentを間接的に制御し、公開されているWebページに埋め込まれた悪意ある命令を実行する、新しい脅威WIPIを導入する。
WIPIを成功させるためには、ブラックボックス環境で動作させる。
提案手法は,純ブラックボックスシナリオにおいても平均攻撃成功率(ASR)が90%を超えることを達成している。
論文 参考訳(メタデータ) (2024-02-26T19:01:54Z) - Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。
既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。
以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文 参考訳(メタデータ) (2022-07-20T19:49:09Z) - Automating Privilege Escalation with Deep Reinforcement Learning [71.87228372303453]
本研究では,エージェントの訓練に深層強化学習を用いることで,悪意あるアクターの潜在的な脅威を実証する。
本稿では,最先端の強化学習アルゴリズムを用いて,局所的な特権エスカレーションを行うエージェントを提案する。
我々のエージェントは、実際の攻撃センサーデータを生成し、侵入検知システムの訓練と評価に利用できる。
論文 参考訳(メタデータ) (2021-10-04T12:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。