論文の概要: VisualTrap: A Stealthy Backdoor Attack on GUI Agents via Visual Grounding Manipulation
- arxiv url: http://arxiv.org/abs/2507.06899v1
- Date: Wed, 09 Jul 2025 14:36:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.6252
- Title: VisualTrap: A Stealthy Backdoor Attack on GUI Agents via Visual Grounding Manipulation
- Title(参考訳): VisualTrap:ビジュアルグラウンド操作によるGUIエージェントに対するステルスなバックドア攻撃
- Authors: Ziang Ye, Yang Zhang, Wentao Shi, Xiaoyu You, Fuli Feng, Tat-Seng Chua,
- Abstract要約: この研究は、GUI要素に対するGUIエージェントをマッピングするテキストプランの視覚的基盤が脆弱性をもたらすことを明らかにしている。
視覚的接地を目的としたバックドア攻撃では、適切なタスク解決計画が与えられた場合でもエージェントの行動が損なわれる可能性がある。
そこで我々は,エージェントが意図したターゲットではなく,意図した位置をトリガーするテキストプランを見つけることをミスリードすることで,グラウンドディングをハイジャックできるVisualTrapを提案する。
- 参考スコア(独自算出の注目度): 68.30039719980519
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graphical User Interface (GUI) agents powered by Large Vision-Language Models (LVLMs) have emerged as a revolutionary approach to automating human-machine interactions, capable of autonomously operating personal devices (e.g., mobile phones) or applications within the device to perform complex real-world tasks in a human-like manner. However, their close integration with personal devices raises significant security concerns, with many threats, including backdoor attacks, remaining largely unexplored. This work reveals that the visual grounding of GUI agent-mapping textual plans to GUI elements-can introduce vulnerabilities, enabling new types of backdoor attacks. With backdoor attack targeting visual grounding, the agent's behavior can be compromised even when given correct task-solving plans. To validate this vulnerability, we propose VisualTrap, a method that can hijack the grounding by misleading the agent to locate textual plans to trigger locations instead of the intended targets. VisualTrap uses the common method of injecting poisoned data for attacks, and does so during the pre-training of visual grounding to ensure practical feasibility of attacking. Empirical results show that VisualTrap can effectively hijack visual grounding with as little as 5% poisoned data and highly stealthy visual triggers (invisible to the human eye); and the attack can be generalized to downstream tasks, even after clean fine-tuning. Moreover, the injected trigger can remain effective across different GUI environments, e.g., being trained on mobile/web and generalizing to desktop environments. These findings underscore the urgent need for further research on backdoor attack risks in GUI agents.
- Abstract(参考訳): LVLM(Large Vision-Language Models)を利用したGUIエージェントは、人間と機械のインタラクションを自動化する革命的なアプローチとして登場し、デバイス内でパーソナルデバイス(携帯電話など)やアプリケーションを自律的に操作し、複雑な現実世界のタスクを人間のように実行する。
しかし、パーソナルデバイスとの密接な統合は、バックドア攻撃を含む多くの脅威を含む、重大なセキュリティ上の懸念を引き起こす。
この研究は、GUI要素をGUI要素にマッピングするテキストプランの視覚的基盤が脆弱性を導入し、新しい種類のバックドアアタックを可能にすることを明らかにしている。
視覚的接地を目的としたバックドア攻撃では、適切なタスク解決計画が与えられた場合でもエージェントの行動が損なわれる可能性がある。
この脆弱性を検証するために、エージェントが意図したターゲットではなく、場所をトリガーするテキストプランを見つけることを誤解させることで、グラウンドディングをハイジャックできるVisualTrapを提案する。
VisualTrapは、攻撃に対して有毒なデータを注入する一般的な方法を使用しており、視覚的グラウンドの事前トレーニング中に攻撃の実用性を確保する。
実証的な結果から、VisualTrapは、5%の有毒なデータと非常にステルスな視覚的トリガー(人間の目には見えない)で効果的に視覚的グラウンドをハイジャックでき、クリーンな微調整の後でも、下流のタスクにその攻撃を一般化できることが示された。
さらに、インジェクションされたトリガーは、例えば、モバイル/Webでトレーニングされ、デスクトップ環境に一般化されるなど、異なるGUI環境にわたって有効である。
これらの知見は、GUIエージェントのバックドア攻撃リスクのさらなる研究の必要性を浮き彫りにしている。
関連論文リスト
- Screen Hijack: Visual Poisoning of VLM Agents in Mobile Environments [61.808686396077036]
GHOSTは視覚言語モデル(VLM)上に構築された移動体エージェントに特化して設計された最初のクリーンラベルバックドア攻撃である。
本手法は,トレーニングサンプルの一部の視覚入力のみを,対応するラベルや指示を変更することなく操作する。
実世界の6つのAndroidアプリとモバイルに適応した3つのVLMアーキテクチャを対象に,本手法の評価を行った。
論文 参考訳(メタデータ) (2025-06-16T08:09:32Z) - The Obvious Invisible Threat: LLM-Powered GUI Agents' Vulnerability to Fine-Print Injections [21.322212760700957]
LLM(Large Language Model)ベースのGUIエージェントは、高レベルな命令に従ってユーザの代用タスクを実行する専門的な自律システムである。
フォームや予約サービスなどの現実世界のタスクを完了させるには、GUIエージェントは機密性の高いユーザーデータを処理する必要がある。
これらの攻撃は、エージェントと人間のユーザに対する視覚的満足度の違いを悪用することが多い。
論文 参考訳(メタデータ) (2025-04-15T15:21:09Z) - Pre-trained Trojan Attacks for Visual Recognition [106.13792185398863]
PVM(Pre-trained Vision Model)は、下流タスクを微調整する際、例外的なパフォーマンスのため、主要なコンポーネントとなっている。
本稿では,PVMにバックドアを埋め込んだトロイの木馬攻撃を提案する。
バックドア攻撃の成功において、クロスタスクアクティベーションとショートカット接続がもたらす課題を強調します。
論文 参考訳(メタデータ) (2023-12-23T05:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。