論文の概要: Realistic Environmental Injection Attacks on GUI Agents
- arxiv url: http://arxiv.org/abs/2509.11250v1
- Date: Sun, 14 Sep 2025 12:47:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.995692
- Title: Realistic Environmental Injection Attacks on GUI Agents
- Title(参考訳): GUIエージェントへの現実的な環境注入攻撃
- Authors: Yitong Zhang, Ximo Li, Liyi Cai, Jia Li,
- Abstract要約: LVLM上に構築されたGUIエージェントは、ウェブサイトとの対話にますます利用されている。
オープンワールドコンテンツへの曝露により、環境注入攻撃(EIA)に弱い。
2つの主要な新規性を持つ攻撃フレームワークであるChameleonを提案する。
- 参考スコア(独自算出の注目度): 6.38492008798679
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GUI agents built on LVLMs are increasingly used to interact with websites. However, their exposure to open-world content makes them vulnerable to Environmental Injection Attacks (EIAs) that hijack agent behavior via webpage elements. Many recent studies assume the attacker to be a regular user who can only upload a single trigger image, which is more realistic than earlier assumptions of website-level administrative control. However, these works still fall short of realism: (1) the trigger's position and surrounding context remain largely fixed between training and testing, failing to capture the dynamic nature of real webpages and (2) the trigger often occupies an unrealistically large area, whereas real-world images are typically small. To better reflect real-world scenarios, we introduce a more realistic threat model where the attacker is a regular user and the trigger image is small and embedded within a dynamically changing environment. As a result, existing attacks prove largely ineffective under this threat model. To better expose the vulnerabilities of GUI agents, we propose Chameleon, an attack framework with two main novelties. The first is LLM-Driven Environment Simulation, which automatically generates diverse and high-fidelity webpage simulations. The second is Attention Black Hole, which transforms attention weights into explicit supervisory signals that guide the agent's focus toward the trigger region. We evaluate Chameleon on 6 realistic websites and 4 representative LVLM-powered GUI agents, where it significantly outperforms existing methods. Ablation studies confirm that both novelties are critical to performance. Our findings reveal underexplored vulnerabilities in modern GUI agents and establish a robust foundation for future research on defense in open-world GUI agent systems. The code is publicly available at https://github.com/zhangyitonggg/attack2gui.
- Abstract(参考訳): LVLM上に構築されたGUIエージェントは、ウェブサイトとの対話にますます利用されている。
しかし、オープンワールドコンテンツへの露出は、Webページ要素を介してエージェントの動作をハイジャックする環境注入攻撃(EIA)に対して脆弱である。
近年の多くの研究では、攻撃者は単一のトリガー画像のみをアップロードできる通常のユーザーであると仮定しており、これはウェブサイトレベルの管理管理の前提よりも現実的である。
トリガーの位置と周囲のコンテキストはトレーニングとテストの間に大きく固定されており、実際のWebページの動的な性質を捉えていない。
現実のシナリオをよりよく反映するために,攻撃者が通常のユーザであり,トリガ画像が小さく,動的に変化する環境に埋め込まれた,より現実的な脅威モデルを導入する。
その結果、既存の攻撃はこの脅威モデルではほとんど効果がないことが判明した。
GUIエージェントの脆弱性を明らかにするために、2つの主要な新機能を持つ攻撃フレームワークであるChameleonを提案する。
1つ目は LLM-Driven Environment Simulation で、多種多様な高忠実なWebページシミュレーションを自動的に生成する。
2つ目は注意孔で、注意重みを明示的な監視信号に変換し、エージェントのトリガー領域への焦点を誘導する。
現実的な6つのウェブサイトと4つの代表的なLVLMGUIエージェント上でChameleonを評価し、既存の手法よりも優れています。
アブレーション研究は、両方の新奇性がパフォーマンスに重要なことを証明している。
本研究は, 現代のGUIエージェントの脆弱性を解明し, オープンワールドGUIエージェントシステムにおける防衛研究の強固な基盤を確立することを目的としたものである。
コードはhttps://github.com/zhangyitonggg/ attack2gui.comで公開されている。
関連論文リスト
- VisualTrap: A Stealthy Backdoor Attack on GUI Agents via Visual Grounding Manipulation [68.30039719980519]
この研究は、GUI要素に対するGUIエージェントをマッピングするテキストプランの視覚的基盤が脆弱性をもたらすことを明らかにしている。
視覚的接地を目的としたバックドア攻撃では、適切なタスク解決計画が与えられた場合でもエージェントの行動が損なわれる可能性がある。
そこで我々は,エージェントが意図したターゲットではなく,意図した位置をトリガーするテキストプランを見つけることをミスリードすることで,グラウンドディングをハイジャックできるVisualTrapを提案する。
論文 参考訳(メタデータ) (2025-07-09T14:36:00Z) - Poison Once, Control Anywhere: Clean-Text Visual Backdoors in VLM-based Mobile Agents [54.35629963816521]
この研究は、VLMベースのモバイルエージェントをターゲットにした最初のクリーンテキストバックドアアタックであるVIBMAを紹介する。
この攻撃は、視覚的な入力だけを変更することによって、悪意ある振る舞いをモデルに注入する。
クリーンタスクの動作を保ちながら高い成功率を達成できることを示す。
論文 参考訳(メタデータ) (2025-06-16T08:09:32Z) - Hidden Ghost Hand: Unveiling Backdoor Vulnerabilities in MLLM-Powered Mobile GUI Agents [19.348335171985152]
MLLMベースのGUIエージェントは、自然に複数の対話レベルのトリガーを公開します。
我々はAgentGhostを紹介した。AgentGhostは、バックドア攻撃をリピートするための効果的でステルス的なフレームワークである。
AgentGhostは有効で汎用的であり、攻撃精度は3つの攻撃目標に対して99.7%に達する。
論文 参考訳(メタデータ) (2025-05-20T14:29:18Z) - EVA: Red-Teaming GUI Agents via Evolving Indirect Prompt Injection [14.83331240126743]
マルチモーダルエージェントは、グラフィカルユーザインタフェース(GUI)を操作してユーザタスクを完了するように、ますます訓練されている。
本稿では,攻撃をループ最適化に変換する間接的プロンプトインジェクションのフレームワークであるEVAを提案する。
EVAは、ポップアップ操作、チャットベースのフィッシング、支払い、電子メール合成などの現実的な設定において、広く使われている6つのジェネラリストおよび専門的なGUIエージェントに対して評価する。
論文 参考訳(メタデータ) (2025-05-20T12:41:05Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。