論文の概要: WARD: Adversarially Robust Defense of Web Agents Against Prompt Injections
- arxiv url: http://arxiv.org/abs/2605.15030v1
- Date: Thu, 14 May 2026 16:26:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.944785
- Title: WARD: Adversarially Robust Defense of Web Agents Against Prompt Injections
- Title(参考訳): WARD: プロンプト注入に対するWebエージェントの反対にロバストな防御
- Authors: Tri Cao, Yulin Chen, Hieu Cao, Yibo Li, Khoi Le, Thong Nguyen, Yuexin Li, Yufei He, Yue Liu, Shuicheng Yan, Bryan Hooi,
- Abstract要約: WARD(Web Agent Robust Defense against Prompt Injection)は、セキュアで効率的なWebエージェントのための実用的なガードモデルである。
WARDは,719の高トラフィックURLとプラットフォームから収集された約177Kのサンプルを備えた,大規模なデータセットであるWARD-Base上に構築されている。
我々は、メモリベースの攻撃とガード共進化プロセスを通じてWARDを反復的に強化する適応的敵攻撃訓練フレームワークであるA3Tを紹介する。
- 参考スコア(独自算出の注目度): 85.68545794960214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Web agents can autonomously complete online tasks by interacting with websites, but their exposure to open web environments makes them vulnerable to prompt injection attacks embedded in HTML content or visual interfaces. Existing guard models still suffer from limited generalization to unseen domains and attack patterns, high false positive rates on benign content, reduced deployment efficiency due to added latency at each step, and vulnerability to adversarial attacks that evolve over time or directly target the guard itself. To address these limitations, we propose WARD (Web Agent Robust Defense against Prompt Injection), a practical guard model for secure and efficient web agents. WARD is built on WARD-Base, a large-scale dataset with around 177K samples collected from 719 high-traffic URLs and platforms, and WARD-PIG, a dedicated dataset designed for prompt injection attacks targeting the guard model. We further introduce A3T, an adaptive adversarial attack training framework that iteratively strengthens WARD through a memory-based attacker and guard co-evolution process. Extensive experiments show that WARD achieves nearly perfect recall on out-of-distribution benchmarks, maintains low false positive rates to preserve agent utility, remains robust against guard-targeted and adaptive attacks under substantial distribution shifts, and runs efficiently in parallel with the agent without introducing additional latency.
- Abstract(参考訳): Webエージェントは、Webサイトと対話することで、オンラインタスクを自律的に完了することができるが、オープンなWeb環境に露出することで、HTMLコンテンツやビジュアルインターフェースに埋め込まれたインジェクションアタックに対して脆弱になる。
既存のガードモデルはまだ、目に見えないドメインやアタックパターンへの限定的な一般化、良質なコンテンツに対する偽陽性率の高さ、各ステップのレイテンシの追加によるデプロイメント効率の低下、時間とともに進化し、ガード自体を直接ターゲットとする敵攻撃に対する脆弱性に悩まされている。
これらの制約に対処するため、安全で効率的なWebエージェントのガードモデルであるWARD(Web Agent Robust Defense against Prompt Injection)を提案する。
WARDは719の高トラフィックURLとプラットフォームから収集された約177Kのサンプルを備えた大規模なデータセットであるWARD-Baseと、ガードモデルをターゲットにしたインジェクションアタックのプロンプト用に設計された専用のデータセットであるWARD-PIG上に構築されている。
さらに、メモリベースの攻撃とガード共進化プロセスを通じてWARDを反復的に強化する適応的敵攻撃訓練フレームワークであるA3Tを紹介する。
大規模な実験によると、WARDはアウト・オブ・ディストリビューションのベンチマークをほぼ完全にリコールし、エージェントユーティリティを維持するために偽陽性率を低く保ち、相当な分散シフトの下でガード目標と適応攻撃に対して頑健であり、追加のレイテンシを導入することなくエージェントと効率的に並列に動作する。
関連論文リスト
- WebAgentGuard: A Reasoning-Driven Guard Model for Detecting Prompt Injection Attacks in Web Agents [117.65855863464863]
Webエージェントはインジェクション攻撃に対して非常に脆弱である。
システム・プロンプト・ディフェンス(英語版)やエージェントの直接微調整を含む既存の防御は、効果が限られている。
本稿では,WebAgentGuardを導入し,インジェクション検出のためのマルチモーダルガードモデルを提案する。
論文 参考訳(メタデータ) (2026-04-14T04:50:35Z) - MUZZLE: Adaptive Agentic Red-Teaming of Web Agents Against Indirect Prompt Injection Attacks [10.431616150153992]
MUZZLEは、間接的なプロンプトインジェクション攻撃に対するWebエージェントのセキュリティを評価する自動化フレームワークである。
エージェントの観察された実行軌跡に基づいて攻撃戦略を適用し、失敗した実行からのフィードバックを使用して攻撃を反復的に洗練する。
MUZZLEは、機密性、可用性、プライバシ特性に反する10の敵目標を持つ4つのWebアプリケーションに対する37の新たな攻撃を効果的に発見する。
論文 参考訳(メタデータ) (2026-02-09T21:46:18Z) - When Bots Take the Bait: Exposing and Mitigating the Emerging Social Engineering Attack in Web Automation Agent [20.98129117390391]
本稿では,Webオートメーションエージェントに対する社会工学的攻撃に関する最初の体系的研究について述べる。
本稿では,エージェント実行における本質的な弱点を利用したエージェントベイトパラダイムを提案する。
本稿では,環境意図と整合性を考慮した軽量ランタイムモジュールSUPERVISORを提案する。
論文 参考訳(メタデータ) (2026-01-12T07:10:08Z) - BrowseSafe: Understanding and Preventing Prompt Injection Within AI Browser Agents [8.923854146974783]
本稿では,実際のHTMLペイロードに埋め込まれた攻撃のベンチマークを合成し,インジェクション攻撃の現場を考察する。
私たちのベンチマークは、単なるテキスト出力ではなく、現実世界のアクションに影響を与えるインジェクションを強調することで、以前の作業を超えています。
アーキテクチャとモデルに基づく防御を両立する多層防衛戦略を提案する。
論文 参考訳(メタデータ) (2025-11-25T18:28:35Z) - Indirect Prompt Injections: Are Firewalls All You Need, or Stronger Benchmarks? [58.48689960350828]
エージェントインタフェースにおけるシンプルでモジュール的で,モデルに依存しないディフェンスが,高ユーティリティで完全なセキュリティを実現することを示す。
ツール入力ファイアウォール(最小限のファイアウォール)とツール出力ファイアウォール(サニタイザ)の2つのファイアウォールをベースとしたディフェンスを採用している。
論文 参考訳(メタデータ) (2025-10-06T18:09:02Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - WebGuard: Building a Generalizable Guardrail for Web Agents [59.31116061613742]
WebGuardは、Webエージェントアクションリスクの評価をサポートするために設計された最初のデータセットである。
その中には、22のドメインにわたる193のWebサイトからの4,939の人手によるアノテートアクションが含まれている。
論文 参考訳(メタデータ) (2025-07-18T18:06:27Z) - Mind the Web: The Security of Web Use Agents [11.075673765065103]
本稿では,Webページに悪意のあるコンテンツを埋め込むことで,攻撃者がWeb利用エージェントを利用する方法を示す。
本稿では,悪質なコマンドをタスクガイダンスとしてフレーム化するタスクアラインインジェクション手法を提案する。
本稿では,監視機構,実行制約,タスク認識推論技術などを含む包括的緩和戦略を提案する。
論文 参考訳(メタデータ) (2025-06-08T13:59:55Z) - Tit-for-Tat: Safeguarding Large Vision-Language Models Against Jailbreak Attacks via Adversarial Defense [90.71884758066042]
大きな視覚言語モデル(LVLM)は、視覚入力による悪意のある攻撃に対する感受性という、ユニークな脆弱性を導入している。
本稿では,脆弱性発生源からアクティブ防衛機構へ視覚空間を変換するための新しい手法であるESIIIを提案する。
論文 参考訳(メタデータ) (2025-03-14T17:39:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。