論文の概要: GhostEI-Bench: Do Mobile Agents Resilience to Environmental Injection in Dynamic On-Device Environments?
- arxiv url: http://arxiv.org/abs/2510.20333v1
- Date: Thu, 23 Oct 2025 08:33:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.620286
- Title: GhostEI-Bench: Do Mobile Agents Resilience to Environmental Injection in Dynamic On-Device Environments?
- Title(参考訳): GhostEI-Bench: モバイルエージェントは動的オンデバイス環境における環境注入に耐性があるか?
- Authors: Chiyu Chen, Xinhao Song, Yunkai Chai, Yang Yao, Haodong Zhao, Lijun Li, Jie Li, Yan Teng, Gongshen Liu, Yingchun Wang,
- Abstract要約: VLM(Vision-Language Models)は,モバイルグラフィカルユーザインターフェース(GUI)をナビゲートする自律エージェントとして,ますます普及している。
環境注入は、GUIに直接敵のUI要素を挿入することで、エージェントの視覚的知覚を損なう。
GhostEI-Benchは、動的に実行可能な環境で環境注入攻撃を受けるモバイルエージェントを評価するための最初のベンチマークである。
- 参考スコア(独自算出の注目度): 30.170538068791263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) are increasingly deployed as autonomous agents to navigate mobile graphical user interfaces (GUIs). Operating in dynamic on-device ecosystems, which include notifications, pop-ups, and inter-app interactions, exposes them to a unique and underexplored threat vector: environmental injection. Unlike prompt-based attacks that manipulate textual instructions, environmental injection corrupts an agent's visual perception by inserting adversarial UI elements (for example, deceptive overlays or spoofed notifications) directly into the GUI. This bypasses textual safeguards and can derail execution, causing privacy leakage, financial loss, or irreversible device compromise. To systematically evaluate this threat, we introduce GhostEI-Bench, the first benchmark for assessing mobile agents under environmental injection attacks within dynamic, executable environments. Moving beyond static image-based assessments, GhostEI-Bench injects adversarial events into realistic application workflows inside fully operational Android emulators and evaluates performance across critical risk scenarios. We further propose a judge-LLM protocol that conducts fine-grained failure analysis by reviewing the agent's action trajectory alongside the corresponding screenshot sequence, pinpointing failure in perception, recognition, or reasoning. Comprehensive experiments on state-of-the-art agents reveal pronounced vulnerability to deceptive environmental cues: current models systematically fail to perceive and reason about manipulated UIs. GhostEI-Bench provides a framework for quantifying and mitigating this emerging threat, paving the way toward more robust and secure embodied agents.
- Abstract(参考訳): VLM(Vision-Language Models)は,モバイルグラフィカルユーザインターフェース(GUI)をナビゲートする自律エージェントとして,ますます普及している。
通知、ポップアップ、アプリ間インタラクションを含む、動的オンデバイスエコシステムでの運用は、ユニークな、未調査の脅威ベクターである環境注入に公開する。
テキスト命令を操作するプロンプトベースの攻撃とは異なり、環境注入は、相手のUI要素(例えば、偽りのオーバーレイや偽の通知)を直接GUIに挿入することで、エージェントの視覚的知覚を損なう。
これはテキストの保護をバイパスし、実行を脱線させ、プライバシーの漏洩、財務的損失、あるいは不可逆的なデバイス妥協を引き起こす。
この脅威をシステマティックに評価するために,動的かつ実行可能な環境における環境注入攻撃下での移動エージェント評価のための最初のベンチマークであるGhostEI-Benchを紹介する。
静的イメージベースのアセスメントを超えて、GhostEI-Benchは、完全に運用されているAndroidエミュレータ内の現実的なアプリケーションワークフローに敵のイベントを注入し、クリティカルリスクシナリオ間でのパフォーマンスを評価する。
さらに、エージェントの動作軌跡を対応するスクリーンショットシーケンスと共にレビューし、認識、認識、推論の失敗をピンポイントすることで、きめ細かな故障解析を行う判断LLMプロトコルを提案する。
最先端のエージェントに関する総合的な実験は、認知的環境の手がかりに対する明らかな脆弱性を明らかにしている: 現在のモデルは、体系的に、操作されたUIを知覚し、推論することができない。
GhostEI-Benchは、この出現する脅威を定量化し緩和し、より堅牢で安全なエンボディエージェントへの道を歩むためのフレームワークを提供する。
関連論文リスト
- Effective and Stealthy One-Shot Jailbreaks on Deployed Mobile Vision-Language Agents [29.62914440645731]
アプリ内のプロンプトインジェクションを活用する一発のjailbreak攻撃を提示する。
悪意のあるアプリはUIテキストに短いプロンプトを埋め込むが、エージェントがADBを介してUIを駆動すると明らかになる。
当社のフレームワークは,(1)悪質なアプリへのペイロードをエージェントの視覚入力として注入する低プライバシー認識チェーンターゲティング,(2)物理的タッチ属性を用いてエージェントを識別し,エージェント操作時にのみペイロードを公開するタッチベーストリガ,(3)ステルス誘導された文字レベルのワンショットプロンプトエフェクト,の3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-10-09T05:34:57Z) - A Systematization of Security Vulnerabilities in Computer Use Agents [1.3560089220432787]
我々は、現実のCUAのシステム的脅威分析と、敵条件下でのテストを行う。
CUAパラダイム特有のリスクのクラスを7つ同定し、3つの具体的なエクスプロイトシナリオを詳細に分析する。
これらのケーススタディは、現在のCUA実装にまたがるより深いアーキテクチャ上の欠陥を明らかにします。
論文 参考訳(メタデータ) (2025-07-07T19:50:21Z) - Hijacking JARVIS: Benchmarking Mobile GUI Agents against Unprivileged Third Parties [19.430061128447022]
本稿では,モバイルGUIエージェントの脆弱性に関する最初の系統的研究について述べる。
本稿では,スケーラブルな攻撃シミュレーションフレームワークであるAgentHazardを紹介した。
動的タスク実行環境と攻撃シナリオの静的データセットの両方からなるベンチマークスイートを開発する。
以上の結果から, 調査対象となったエージェントは, 誤解を招く第三者コンテンツに大きく影響していることが判明した。
論文 参考訳(メタデータ) (2025-07-06T03:31:36Z) - AGENTSAFE: Benchmarking the Safety of Embodied Agents on Hazardous Instructions [64.85086226439954]
本稿では,有害な指示に対するVLMエージェントの安全性を評価するためのベンチマークであるSAFEを提案する。
SAFEは、SAFE−THOR、SAFE−VERSE、SAFE−DIAGNOSEの3つの成分からなる。
我々は、ハザード認識を安全な計画と実行に翻訳する体系的な失敗を明らかにする。
論文 参考訳(メタデータ) (2025-06-17T16:37:35Z) - Poison Once, Control Anywhere: Clean-Text Visual Backdoors in VLM-based Mobile Agents [54.35629963816521]
この研究は、VLMベースのモバイルエージェントをターゲットにした最初のクリーンテキストバックドアアタックであるVIBMAを紹介する。
この攻撃は、視覚的な入力だけを変更することによって、悪意ある振る舞いをモデルに注入する。
クリーンタスクの動作を保ちながら高い成功率を達成できることを示す。
論文 参考訳(メタデータ) (2025-06-16T08:09:32Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [33.40201949055383]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z) - EVA: Red-Teaming GUI Agents via Evolving Indirect Prompt Injection [14.83331240126743]
マルチモーダルエージェントは、グラフィカルユーザインタフェース(GUI)を操作してユーザタスクを完了するように、ますます訓練されている。
本稿では,攻撃をループ最適化に変換する間接的プロンプトインジェクションのフレームワークであるEVAを提案する。
EVAは、ポップアップ操作、チャットベースのフィッシング、支払い、電子メール合成などの現実的な設定において、広く使われている6つのジェネラリストおよび専門的なGUIエージェントに対して評価する。
論文 参考訳(メタデータ) (2025-05-20T12:41:05Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。