論文の概要: SlowBA: An efficiency backdoor attack towards VLM-based GUI agents
- arxiv url: http://arxiv.org/abs/2603.08316v2
- Date: Tue, 10 Mar 2026 11:10:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 12:59:13.120113
- Title: SlowBA: An efficiency backdoor attack towards VLM-based GUI agents
- Title(参考訳): SlowBA: VLMベースのGUIエージェントに対する効率的なバックドア攻撃
- Authors: Junxian Li, Tu Lan, Haozhen Tan, Yan Meng, Haojin Zhu,
- Abstract要約: 本稿では、VLMベースのGUIエージェントの応答性をターゲットとした、新しいバックドア攻撃であるSlowBAを紹介する。
キーとなるアイデアは、特定のトリガーパターンの下で過度に長い推論チェーンを誘導することで、レスポンスのレイテンシを操作することです。
実験により、SlowBAはタスクの正確性を大きく保ちながら、応答長とレイテンシを大幅に向上できることが示された。
- 参考スコア(独自算出の注目度): 13.613479645526334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern vision-language-model (VLM) based graphical user interface (GUI) agents are expected not only to execute actions accurately but also to respond to user instructions with low latency. While existing research on GUI-agent security mainly focuses on manipulating action correctness, the security risks related to response efficiency remain largely unexplored. In this paper, we introduce SlowBA, a novel backdoor attack that targets the responsiveness of VLM-based GUI agents. The key idea is to manipulate response latency by inducing excessively long reasoning chains under specific trigger patterns. To achieve this, we propose a two-stage reward-level backdoor injection (RBI) strategy that first aligns the long-response format and then learns trigger-aware activation through reinforcement learning. In addition, we design realistic pop-up windows as triggers that naturally appear in GUI environments, improving the stealthiness of the attack. Extensive experiments across multiple datasets and baselines demonstrate that SlowBA can significantly increase response length and latency while largely preserving task accuracy. The attack remains effective even with a small poisoning ratio and under several defense settings. These findings reveal a previously overlooked security vulnerability in GUI agents and highlight the need for defenses that consider both action correctness and response efficiency. Code can be found in https://github.com/tu-tuing/SlowBA.
- Abstract(参考訳): 最新の視覚言語モデル(VLM)ベースのGUIエージェントは,アクションを正確に実行するだけでなく,低レイテンシでユーザ命令に応答することが期待されている。
GUIエージェントのセキュリティに関する既存の研究は、主にアクションの正当性を操作することに焦点を当てているが、応答効率に関するセキュリティリスクはほとんど未調査のままである。
本稿では,VLMベースのGUIエージェントの応答性を目標とした,新しいバックドアアタックであるSlowBAを紹介する。
キーとなるアイデアは、特定のトリガーパターンの下で過度に長い推論チェーンを誘導することで、レスポンスのレイテンシを操作することです。
そこで本研究では,2段階の報酬レベルバックドアインジェクション(RBI)戦略を提案する。
また,GUI環境に自然に現れるトリガーとしてリアルなポップアップウィンドウを設計し,攻撃のステルス性を向上させる。
複数のデータセットとベースラインにわたる大規模な実験により、SlowBAはタスクの正確性を大幅に保ちながら、応答長とレイテンシを大幅に向上できることが示された。
この攻撃は、小さな中毒率といくつかの防御条件の下でも有効である。
これらの発見は、以前見落とされたGUIエージェントのセキュリティ脆弱性を明らかにし、アクションの正しさと応答効率の両方を考慮した防御の必要性を強調している。
コードはhttps://github.com/tu-tuing/SlowBA.comにある。
関連論文リスト
- Backdoor Attacks on Open Vocabulary Object Detectors via Multi-Modal Prompt Tuning [5.0734761482919115]
オープン語彙オブジェクト検出器(OVOD)は、視覚と言語を統一し、テキストプロンプトに基づいて任意のオブジェクトカテゴリを検出する。
我々は,OVODに対するバックドアアタックの最初の研究を行い,即時チューニングによって導入された新たなアタックサーフェスを明らかにする。
論文 参考訳(メタデータ) (2025-11-16T19:05:31Z) - Poison Once, Control Anywhere: Clean-Text Visual Backdoors in VLM-based Mobile Agents [54.35629963816521]
この研究は、VLMベースのモバイルエージェントをターゲットにした最初のクリーンテキストバックドアアタックであるVIBMAを紹介する。
この攻撃は、視覚的な入力だけを変更することによって、悪意ある振る舞いをモデルに注入する。
クリーンタスクの動作を保ちながら高い成功率を達成できることを示す。
論文 参考訳(メタデータ) (2025-06-16T08:09:32Z) - Hidden Ghost Hand: Unveiling Backdoor Vulnerabilities in MLLM-Powered Mobile GUI Agents [19.348335171985152]
MLLMベースのGUIエージェントは、自然に複数の対話レベルのトリガーを公開します。
我々はAgentGhostを紹介した。AgentGhostは、バックドア攻撃をリピートするための効果的でステルス的なフレームワークである。
AgentGhostは有効で汎用的であり、攻撃精度は3つの攻撃目標に対して99.7%に達する。
論文 参考訳(メタデータ) (2025-05-20T14:29:18Z) - EVA: Red-Teaming GUI Agents via Evolving Indirect Prompt Injection [14.83331240126743]
マルチモーダルエージェントは、グラフィカルユーザインタフェース(GUI)を操作してユーザタスクを完了するように、ますます訓練されている。
本稿では,攻撃をループ最適化に変換する間接的プロンプトインジェクションのフレームワークであるEVAを提案する。
EVAは、ポップアップ操作、チャットベースのフィッシング、支払い、電子メール合成などの現実的な設定において、広く使われている6つのジェネラリストおよび専門的なGUIエージェントに対して評価する。
論文 参考訳(メタデータ) (2025-05-20T12:41:05Z) - MELON: Provable Defense Against Indirect Prompt Injection Attacks in AI Agents [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱であり、ツール検索情報に埋め込まれた悪意のあるタスクはエージェントをリダイレクトして不正なアクションを取ることができる。
マスク機能によって修正されたマスク付きユーザでエージェントの軌道を再実行することで攻撃を検知する新しいIPIディフェンスであるMELONを提案する。
論文 参考訳(メタデータ) (2025-02-07T18:57:49Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。