論文の概要: AdInject: Real-World Black-Box Attacks on Web Agents via Advertising Delivery
- arxiv url: http://arxiv.org/abs/2505.21499v1
- Date: Tue, 27 May 2025 17:59:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.855439
- Title: AdInject: Real-World Black-Box Attacks on Web Agents via Advertising Delivery
- Title(参考訳): AdInject: 広告配信によるWebエージェントのリアルタイムブラックボックス攻撃
- Authors: Haowei Wang, Junjie Wang, Xiaojun Jia, Rupeng Zhang, Mingyang Li, Zhe Liu, Yang Liu, Qing Wang,
- Abstract要約: Vision-Language Model (VLM)ベースのWeb Agentは、Webサイトとの人間的なインタラクションをシミュレートすることによって、複雑なタスクを自動化するためのステップである。
敵の環境注入攻撃に関する既存の研究は、しばしば非現実的な仮定に依存している。
本稿では,インターネット広告配信を活用して悪意のあるコンテンツをWebエージェントの環境に注入する,新規で現実的なブラックボックス攻撃手法であるAdInjectを提案する。
- 参考スコア(独自算出の注目度): 19.989518524625954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Model (VLM) based Web Agents represent a significant step towards automating complex tasks by simulating human-like interaction with websites. However, their deployment in uncontrolled web environments introduces significant security vulnerabilities. Existing research on adversarial environmental injection attacks often relies on unrealistic assumptions, such as direct HTML manipulation, knowledge of user intent, or access to agent model parameters, limiting their practical applicability. In this paper, we propose AdInject, a novel and real-world black-box attack method that leverages the internet advertising delivery to inject malicious content into the Web Agent's environment. AdInject operates under a significantly more realistic threat model than prior work, assuming a black-box agent, static malicious content constraints, and no specific knowledge of user intent. AdInject includes strategies for designing malicious ad content aimed at misleading agents into clicking, and a VLM-based ad content optimization technique that infers potential user intents from the target website's context and integrates these intents into the ad content to make it appear more relevant or critical to the agent's task, thus enhancing attack effectiveness. Experimental evaluations demonstrate the effectiveness of AdInject, attack success rates exceeding 60% in most scenarios and approaching 100% in certain cases. This strongly demonstrates that prevalent advertising delivery constitutes a potent and real-world vector for environment injection attacks against Web Agents. This work highlights a critical vulnerability in Web Agent security arising from real-world environment manipulation channels, underscoring the urgent need for developing robust defense mechanisms against such threats. Our code is available at https://github.com/NicerWang/AdInject.
- Abstract(参考訳): Vision-Language Model (VLM)ベースのWeb Agentは、Webサイトとの人間的なインタラクションをシミュレートすることによって、複雑なタスクを自動化するための重要なステップである。
しかし、コントロールされていないWeb環境へのデプロイは、重大なセキュリティ上の脆弱性をもたらす。
敵の環境注入攻撃に関する既存の研究は、直接HTML操作、ユーザ意図の知識、エージェントモデルパラメータへのアクセスといった非現実的な仮定に依存し、実用性を制限することがよくある。
本稿では,インターネット広告配信を活用して悪意のあるコンテンツをWebエージェントの環境に注入する,新規で現実的なブラックボックス攻撃手法であるAdInjectを提案する。
AdInjectは、ブラックボックスエージェント、静的な悪意のあるコンテンツ制約、ユーザの意図に関する具体的な知識を前提として、以前の作業よりもはるかに現実的な脅威モデルの下で動作します。
AdInjectには、エージェントをクリックに誘導することを目的とした悪意ある広告コンテンツを設計する戦略と、ターゲットWebサイトのコンテキストから潜在的なユーザ意図を推測し、これらの意図を広告コンテンツに統合し、エージェントのタスクにより関連性や重要視するようにするためのVLMベースの広告コンテンツ最適化技術が含まれている。
実験では、AdInjectの有効性、ほとんどのシナリオで60%以上の攻撃成功率、特定のケースでは100%以上の攻撃成功率を示す。
このことは、一般的な広告配信が、Webエージェントに対する環境注入攻撃の強力な実世界のベクターとなっていることを強く示している。
この研究は、現実世界の環境操作チャネルから生じるWeb Agentのセキュリティの重大な脆弱性を強調し、このような脅威に対して堅牢な防御メカニズムを開発する緊急の必要性を強調している。
私たちのコードはhttps://github.com/NicerWang/AdInject.orgから入手可能です。
関連論文リスト
- SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。
フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。
本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-02-15T16:09:48Z) - MUZZLE: Adaptive Agentic Red-Teaming of Web Agents Against Indirect Prompt Injection Attacks [10.431616150153992]
MUZZLEは、間接的なプロンプトインジェクション攻撃に対するWebエージェントのセキュリティを評価する自動化フレームワークである。
エージェントの観察された実行軌跡に基づいて攻撃戦略を適用し、失敗した実行からのフィードバックを使用して攻撃を反復的に洗練する。
MUZZLEは、機密性、可用性、プライバシ特性に反する10の敵目標を持つ4つのWebアプリケーションに対する37の新たな攻撃を効果的に発見する。
論文 参考訳(メタデータ) (2026-02-09T21:46:18Z) - It's a TRAP! Task-Redirecting Agent Persuasion Benchmark for Web Agents [52.81924177620322]
大規模な言語モデルを利用したWebベースのエージェントは、メール管理やプロフェッショナルネットワーキングといったタスクにますます利用されている。
動的Webコンテンツへの依存は、インジェクション攻撃の引き金に弱い: インターフェース要素に隠された敵対的命令は、エージェントが元のタスクから逸脱するように説得する。
本稿では,タスクリダイレクトエージェントの説得ベンチマーク(TRAP)について紹介する。
論文 参考訳(メタデータ) (2025-12-29T01:09:10Z) - BrowseSafe: Understanding and Preventing Prompt Injection Within AI Browser Agents [8.923854146974783]
本稿では,実際のHTMLペイロードに埋め込まれた攻撃のベンチマークを合成し,インジェクション攻撃の現場を考察する。
私たちのベンチマークは、単なるテキスト出力ではなく、現実世界のアクションに影響を与えるインジェクションを強調することで、以前の作業を超えています。
アーキテクチャとモデルに基づく防御を両立する多層防衛戦略を提案する。
論文 参考訳(メタデータ) (2025-11-25T18:28:35Z) - FocusAgent: Simple Yet Effective Ways of Trimming the Large Context of Web Agents [76.12500510390439]
大規模言語モデル(LLM)を利用したWebエージェントは、ユーザの目標を達成するために、長いWebページの観察を処理しなければならない。
既存のプルーニング戦略は、関連するコンテンツを捨てるか、無関係なコンテキストを保持するかのいずれかであり、最適以下の行動予測につながる。
FocusAgentは軽量LCMレトリバーを利用してアクセシビリティツリー(AxTree)観測から最も関連性の高い線を抽出するシンプルで効果的なアプローチである。
論文 参考訳(メタデータ) (2025-10-03T17:41:30Z) - Cuckoo Attack: Stealthy and Persistent Attacks Against AI-IDE [64.47951172662745]
Cuckoo Attackは、悪意のあるペイロードを構成ファイルに埋め込むことで、ステルス性と永続的なコマンド実行を実現する新しい攻撃である。
攻撃パラダイムを初期感染と持続性という2つの段階に分類する。
当社は、ベンダーが製品のセキュリティを評価するために、実行可能な7つのチェックポイントを提供しています。
論文 参考訳(メタデータ) (2025-09-19T04:10:52Z) - Context manipulation attacks : Web agents are susceptible to corrupted memory [37.66661108936654]
Plan Injection"は、これらのエージェントの内部タスク表現を、この脆弱なコンテキストをターゲットとして破壊する、新しいコンテキスト操作攻撃である。
プランインジェクションはロバスト・プロンプト・インジェクション・ディフェンスを回避し,攻撃成功率を同等のプロンプト・ベース・アタックの最大3倍に向上することを示す。
この結果から,安全なメモリ処理はエージェントシステムにおける第一級の関心事であることが示唆された。
論文 参考訳(メタデータ) (2025-06-18T14:29:02Z) - Screen Hijack: Visual Poisoning of VLM Agents in Mobile Environments [61.808686396077036]
GHOSTは視覚言語モデル(VLM)上に構築された移動体エージェントに特化して設計された最初のクリーンラベルバックドア攻撃である。
本手法は,トレーニングサンプルの一部の視覚入力のみを,対応するラベルや指示を変更することなく操作する。
実世界の6つのAndroidアプリとモバイルに適応した3つのVLMアーキテクチャを対象に,本手法の評価を行った。
論文 参考訳(メタデータ) (2025-06-16T08:09:32Z) - Mind the Web: The Security of Web Use Agents [11.075673765065103]
本稿では,Webページに悪意のあるコンテンツを埋め込むことで,攻撃者がWeb利用エージェントを利用する方法を示す。
本稿では,悪質なコマンドをタスクガイダンスとしてフレーム化するタスクアラインインジェクション手法を提案する。
本稿では,監視機構,実行制約,タスク認識推論技術などを含む包括的緩和戦略を提案する。
論文 参考訳(メタデータ) (2025-06-08T13:59:55Z) - VPI-Bench: Visual Prompt Injection Attacks for Computer-Use Agents [74.6761188527948]
完全なシステムアクセスを持つコンピュータ利用エージェント(CUA)は、セキュリティとプライバシの重大なリスクを負う。
我々は、悪意のある命令がレンダリングされたユーザーインターフェイスに視覚的に埋め込まれた視覚的プロンプトインジェクション(VPI)攻撃について検討する。
実験により,現在のCUAとBUAは,それぞれのプラットフォーム上で最大51%,100%の速度で騙すことができることがわかった。
論文 参考訳(メタデータ) (2025-06-03T05:21:50Z) - The Hidden Dangers of Browsing AI Agents [0.0]
本稿では,複数のアーキテクチャ層にまたがるシステム的脆弱性に着目し,このようなエージェントの総合的なセキュリティ評価を行う。
本研究は,ブラウジングエージェントのエンド・ツー・エンドの脅威モデルについて概説し,実環境への展開を確保するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2025-05-19T13:10:29Z) - AGENTFUZZER: Generic Black-Box Fuzzing for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジィングフレームワークであるAgentXploitを提案する。
我々は、AgentXploitをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - WASP: Benchmarking Web Agent Security Against Prompt Injection Attacks [36.97842000562324]
我々は、Pmptインジェクション攻撃に対するWeb Agent Securityのエンドツーエンド評価のための新しいベンチマークであるWASPを紹介する。
高度な推論能力を含むトップレベルのAIモデルでさえ、単純で低便なヒューマンインジェクションによって騙される可能性があることを示す。
攻撃は最大86%で部分的には成功したが、最先端のエージェントでさえ、攻撃者の目標を完全に満たすのに苦労することが多い。
論文 参考訳(メタデータ) (2025-04-22T17:51:03Z) - Attacking Vision-Language Computer Agents via Pop-ups [61.744008541021124]
VLMエージェントは、慎重に設計された対向的なポップアップによって容易に攻撃できることを示す。
この混乱は、エージェントが通常どおりのタスクを実行するのではなく、ポップアップをクリックしてしまう。
エージェントにポップアップを無視するよう要求したり、広告通知を含むような基本的な防御技術は、攻撃に対して効果がない。
論文 参考訳(メタデータ) (2024-11-04T18:56:42Z) - AdvWeb: Controllable Black-box Attacks on VLM-powered Web Agents [22.682464365220916]
AdvWebは、Webエージェント向けに設計された新しいブラックボックス攻撃フレームワークである。
DPOを用いた逆プロンプトモデルの訓練と最適化を行う。
従来のアプローチとは異なり、我々の逆文字列注入はステルスと制御を維持している。
論文 参考訳(メタデータ) (2024-10-22T20:18:26Z) - EIA: Environmental Injection Attack on Generalist Web Agents for Privacy Leakage [40.82238259404402]
敵環境におけるジェネラリストWebエージェントのプライバシーリスクに関する最初の研究を行う。
まず,Webサイト上での攻撃に対する現実的な脅威モデルを提示し,ユーザ固有のPIIを盗むか,あるいはユーザ要求全体に対して,敵対的な2つのターゲットを検討する。
我々は、Mind2Webから様々なPIIカテゴリを含む177のアクションステップを収集し、これまでで最も有能なジェネラリストWebエージェントフレームワークの1つを使用して実験を行う。
論文 参考訳(メタデータ) (2024-09-17T15:49:44Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。