論文の概要: Effective and Stealthy One-Shot Jailbreaks on Deployed Mobile Vision-Language Agents
- arxiv url: http://arxiv.org/abs/2510.07809v1
- Date: Thu, 09 Oct 2025 05:34:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.888156
- Title: Effective and Stealthy One-Shot Jailbreaks on Deployed Mobile Vision-Language Agents
- Title(参考訳): モバイルビジョンランゲージエージェントの配置における有効で安定したワンショットジェイルブレイク
- Authors: Renhua Ding, Xiao Yang, Zhengwei Fang, Jun Luo, Kun He, Jun Zhu,
- Abstract要約: アプリ内のプロンプトインジェクションを活用する一発のjailbreak攻撃を提示する。
悪意のあるアプリはUIテキストに短いプロンプトを埋め込むが、エージェントがADBを介してUIを駆動すると明らかになる。
当社のフレームワークは,(1)悪質なアプリへのペイロードをエージェントの視覚入力として注入する低プライバシー認識チェーンターゲティング,(2)物理的タッチ属性を用いてエージェントを識別し,エージェント操作時にのみペイロードを公開するタッチベーストリガ,(3)ステルス誘導された文字レベルのワンショットプロンプトエフェクト,の3つの重要なコンポーネントから構成される。
- 参考スコア(独自算出の注目度): 29.62914440645731
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language models (LVLMs) enable autonomous mobile agents to operate smartphone user interfaces, yet vulnerabilities to UI-level attacks remain critically understudied. Existing research often depends on conspicuous UI overlays, elevated permissions, or impractical threat models, limiting stealth and real-world applicability. In this paper, we present a practical and stealthy one-shot jailbreak attack that leverages in-app prompt injections: malicious applications embed short prompts in UI text that remain inert during human interaction but are revealed when an agent drives the UI via ADB (Android Debug Bridge). Our framework comprises three crucial components: (1) low-privilege perception-chain targeting, which injects payloads into malicious apps as the agent's visual inputs; (2) stealthy user-invisible activation, a touch-based trigger that discriminates agent from human touches using physical touch attributes and exposes the payload only during agent operation; and (3) one-shot prompt efficacy, a heuristic-guided, character-level iterative-deepening search algorithm (HG-IDA*) that performs one-shot, keyword-level detoxification to evade on-device safety filters. We evaluate across multiple LVLM backends, including closed-source services and representative open-source models within three Android applications, and we observe high planning and execution hijack rates in single-shot scenarios (e.g., GPT-4o: 82.5% planning / 75.0% execution). These findings expose a fundamental security vulnerability in current mobile agents with immediate implications for autonomous smartphone operation.
- Abstract(参考訳): 大規模な視覚言語モデル(LVLM)は、自律的なモバイルエージェントがスマートフォンのユーザインターフェースを操作できるようにするが、UIレベルの攻撃に対する脆弱性は、依然として極めて過小評価されている。
既存の研究は、しばしば目立ったUIオーバーレイ、許可の高揚、あるいは非現実的な脅威モデルに依存し、ステルスと現実の応用性を制限する。
本稿では,アプリケーション内のプロンプトインジェクションを活用する,実用的でステルスな1発のジェイルブレイク攻撃について述べる。悪意のあるアプリケーションは,人間のインタラクション中に不活性なままのUIテキストに短いプロンプトを埋め込むが,エージェントがADB(Android Debug Bridge)を介してUIを駆動すると明らかにする。
本フレームワークは,(1)エージェントの視覚入力として悪意あるアプリにペイロードを注入する低プライバシー認識チェーンターゲティング,(2)物理的タッチ属性を用いてエージェントを識別し,エージェント操作時にのみペイロードを露呈するタッチベースのトリガー,(3)単発の即効性,(HG-IDA*)一発のキーワードレベルデトキシフィケーションにより,デバイス上の安全フィルタを回避し,一発のキーワードレベルデトキシフィケーションを行う。
3つのAndroidアプリケーション内で、クローズドソースサービスや代表的なオープンソースモデルを含む複数のLVLMバックエンドを評価し、シングルショットシナリオ(例:GPT-4o:82.5%プランニング/75.0%実行)でハイプランニングと実行のハイジャックレートを観察します。
これらの発見は、現在のモバイルエージェントの基本的なセキュリティ上の脆弱性が、スマートフォンの自律操作にすぐに影響することを示している。
関連論文リスト
- Poison Once, Control Anywhere: Clean-Text Visual Backdoors in VLM-based Mobile Agents [54.35629963816521]
この研究は、VLMベースのモバイルエージェントをターゲットにした最初のクリーンテキストバックドアアタックであるVIBMAを紹介する。
この攻撃は、視覚的な入力だけを変更することによって、悪意ある振る舞いをモデルに注入する。
クリーンタスクの動作を保ちながら高い成功率を達成できることを示す。
論文 参考訳(メタデータ) (2025-06-16T08:09:32Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。