論文の概要: Manipulating LLM Web Agents with Indirect Prompt Injection Attack via HTML Accessibility Tree
- arxiv url: http://arxiv.org/abs/2507.14799v1
- Date: Sun, 20 Jul 2025 03:10:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.062252
- Title: Manipulating LLM Web Agents with Indirect Prompt Injection Attack via HTML Accessibility Tree
- Title(参考訳): HTMLアクセシビリティツリーを用いた間接プロンプト注入攻撃によるLLM Webエージェントの操作
- Authors: Sam Johnson, Viet Pham, Thai Le,
- Abstract要約: 敵はWebページHTMLにユニバーサルな敵のトリガーを埋め込んでエージェントの動作をハイジャックできることを示す。
本システムは,ターゲット攻撃と一般攻撃の両方において,実際のWebサイト間で高い成功率を示す。
- 参考スコア(独自算出の注目度): 8.511846002129522
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work demonstrates that LLM-based web navigation agents offer powerful automation capabilities but are vulnerable to Indirect Prompt Injection (IPI) attacks. We show that adversaries can embed universal adversarial triggers in webpage HTML to hijack agent behavior that utilizes the accessibility tree to parse HTML, causing unintended or malicious actions. Using the Greedy Coordinate Gradient (GCG) algorithm and a Browser Gym agent powered by Llama-3.1, our system demonstrates high success rates across real websites in both targeted and general attacks, including login credential exfiltration and forced ad clicks. Our empirical results highlight critical security risks and the need for stronger defenses as LLM-driven autonomous web agents become more widely adopted. The system software (https://github.com/sej2020/manipulating-web-agents) is released under the MIT License, with an accompanying publicly available demo website (http://lethaiq.github.io/attack-web-llm-agent).
- Abstract(参考訳): この研究は、LLMベースのWebナビゲーションエージェントが強力な自動化機能を提供するが、間接プロンプトインジェクション(IPI)攻撃に弱いことを実証している。
敵は、アクセシビリティツリーを用いてHTMLを解析し、意図しない、悪意のないアクションを引き起こすエージェント動作をハイジャックするために、WebページHTMLに普遍的な敵のトリガーを埋め込むことができることを示す。
Llama-3.1をベースとしたGreedy Coordinate Gradient(GCG)アルゴリズムとBrowser Gymエージェントを用いて,ログインクレデンシャルの排除や強制的な広告クリックを含む,ターゲットおよび一般攻撃の両方において,実際のWebサイト間で高い成功率を示す。
LLM駆動の自律型Webエージェントがより広く採用されるにつれて,我々の経験的結果は,重要なセキュリティリスクと強力な防御の必要性を浮き彫りにしている。
システムソフトウェア(https://github.com/sej2020/manipulating-web-agents)はMITライセンス下でリリースされ、公開デモサイト(http://lethaiq.github.io/ attack-web-llm-agent)が付属している。
関連論文リスト
- Mind the Web: The Security of Web Use Agents [8.863542098424558]
攻撃者は、悪意のあるコンテンツをWebページに埋め込むことで、Web利用エージェントの高特権能力を活用できることを示す。
本稿では,攻撃を明白にするのではなく,悪質なコマンドを有用なタスクガイダンスとして設定するタスクアラインインジェクション手法を提案する。
本稿では,監視機構,実行制約,タスク認識推論技術などを含む包括的緩和戦略を提案する。
論文 参考訳(メタデータ) (2025-06-08T13:59:55Z) - VPI-Bench: Visual Prompt Injection Attacks for Computer-Use Agents [74.6761188527948]
完全なシステムアクセスを持つコンピュータ利用エージェント(CUA)は、セキュリティとプライバシの重大なリスクを負う。
我々は、悪意のある命令がレンダリングされたユーザーインターフェイスに視覚的に埋め込まれた視覚的プロンプトインジェクション(VPI)攻撃について検討する。
実験により,現在のCUAとBUAは,それぞれのプラットフォーム上で最大51%,100%の速度で騙すことができることがわかった。
論文 参考訳(メタデータ) (2025-06-03T05:21:50Z) - AdInject: Real-World Black-Box Attacks on Web Agents via Advertising Delivery [19.989518524625954]
Vision-Language Model (VLM)ベースのWeb Agentは、Webサイトとの人間的なインタラクションをシミュレートすることによって、複雑なタスクを自動化するためのステップである。
敵の環境注入攻撃に関する既存の研究は、しばしば非現実的な仮定に依存している。
本稿では,インターネット広告配信を活用して悪意のあるコンテンツをWebエージェントの環境に注入する,新規で現実的なブラックボックス攻撃手法であるAdInjectを提案する。
論文 参考訳(メタデータ) (2025-05-27T17:59:05Z) - WebCoT: Enhancing Web Agent Reasoning by Reconstructing Chain-of-Thought in Reflection, Branching, and Rollback [74.82886755416949]
有効なWebエージェントに必要な重要な推論スキルを同定する。
我々はエージェントの推論アルゴリズムを連鎖論理に再構成する。
このアプローチは、複数のベンチマークで大幅に改善される。
論文 参考訳(メタデータ) (2025-05-26T14:03:37Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - WASP: Benchmarking Web Agent Security Against Prompt Injection Attacks [36.97842000562324]
我々は、Pmptインジェクション攻撃に対するWeb Agent Securityのエンドツーエンド評価のための新しいベンチマークであるWASPを紹介する。
高度な推論能力を含むトップレベルのAIモデルでさえ、単純で低便なヒューマンインジェクションによって騙される可能性があることを示す。
攻撃は最大86%で部分的には成功したが、最先端のエージェントでさえ、攻撃者の目標を完全に満たすのに苦労することが多い。
論文 参考訳(メタデータ) (2025-04-22T17:51:03Z) - DoomArena: A framework for Testing AI Agents Against Evolving Security Threats [84.94654617852322]
本稿では,AIエージェントのセキュリティ評価フレームワークであるDoomArenaを紹介する。
プラグインフレームワークであり、現実的なエージェントフレームワークと簡単に統合できる。
モジュールであり、エージェントがデプロイされる環境の詳細から攻撃の開発を分離する。
論文 参考訳(メタデータ) (2025-04-18T20:36:10Z) - AdvAgent: Controllable Blackbox Red-teaming on Web Agents [22.682464365220916]
AdvAgentは、Webエージェントを攻撃するためのブラックボックスのレッドチームフレームワークである。
強化学習に基づくパイプラインを使用して、敵のプロンプトモデルをトレーニングする。
慎重な攻撃設計では、エージェントの弱点を効果的に活用し、ステルス性と制御性を維持する。
論文 参考訳(メタデータ) (2024-10-22T20:18:26Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。