論文の概要: Effective and Stealthy One-Shot Jailbreaks on Deployed Mobile Vision-Language Agents
- arxiv url: http://arxiv.org/abs/2510.07809v1
- Date: Thu, 09 Oct 2025 05:34:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.888156
- Title: Effective and Stealthy One-Shot Jailbreaks on Deployed Mobile Vision-Language Agents
- Title(参考訳): モバイルビジョンランゲージエージェントの配置における有効で安定したワンショットジェイルブレイク
- Authors: Renhua Ding, Xiao Yang, Zhengwei Fang, Jun Luo, Kun He, Jun Zhu,
- Abstract要約: アプリ内のプロンプトインジェクションを活用する一発のjailbreak攻撃を提示する。
悪意のあるアプリはUIテキストに短いプロンプトを埋め込むが、エージェントがADBを介してUIを駆動すると明らかになる。
当社のフレームワークは,(1)悪質なアプリへのペイロードをエージェントの視覚入力として注入する低プライバシー認識チェーンターゲティング,(2)物理的タッチ属性を用いてエージェントを識別し,エージェント操作時にのみペイロードを公開するタッチベーストリガ,(3)ステルス誘導された文字レベルのワンショットプロンプトエフェクト,の3つの重要なコンポーネントから構成される。
- 参考スコア(独自算出の注目度): 29.62914440645731
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language models (LVLMs) enable autonomous mobile agents to operate smartphone user interfaces, yet vulnerabilities to UI-level attacks remain critically understudied. Existing research often depends on conspicuous UI overlays, elevated permissions, or impractical threat models, limiting stealth and real-world applicability. In this paper, we present a practical and stealthy one-shot jailbreak attack that leverages in-app prompt injections: malicious applications embed short prompts in UI text that remain inert during human interaction but are revealed when an agent drives the UI via ADB (Android Debug Bridge). Our framework comprises three crucial components: (1) low-privilege perception-chain targeting, which injects payloads into malicious apps as the agent's visual inputs; (2) stealthy user-invisible activation, a touch-based trigger that discriminates agent from human touches using physical touch attributes and exposes the payload only during agent operation; and (3) one-shot prompt efficacy, a heuristic-guided, character-level iterative-deepening search algorithm (HG-IDA*) that performs one-shot, keyword-level detoxification to evade on-device safety filters. We evaluate across multiple LVLM backends, including closed-source services and representative open-source models within three Android applications, and we observe high planning and execution hijack rates in single-shot scenarios (e.g., GPT-4o: 82.5% planning / 75.0% execution). These findings expose a fundamental security vulnerability in current mobile agents with immediate implications for autonomous smartphone operation.
- Abstract(参考訳): 大規模な視覚言語モデル(LVLM)は、自律的なモバイルエージェントがスマートフォンのユーザインターフェースを操作できるようにするが、UIレベルの攻撃に対する脆弱性は、依然として極めて過小評価されている。
既存の研究は、しばしば目立ったUIオーバーレイ、許可の高揚、あるいは非現実的な脅威モデルに依存し、ステルスと現実の応用性を制限する。
本稿では,アプリケーション内のプロンプトインジェクションを活用する,実用的でステルスな1発のジェイルブレイク攻撃について述べる。悪意のあるアプリケーションは,人間のインタラクション中に不活性なままのUIテキストに短いプロンプトを埋め込むが,エージェントがADB(Android Debug Bridge)を介してUIを駆動すると明らかにする。
本フレームワークは,(1)エージェントの視覚入力として悪意あるアプリにペイロードを注入する低プライバシー認識チェーンターゲティング,(2)物理的タッチ属性を用いてエージェントを識別し,エージェント操作時にのみペイロードを露呈するタッチベースのトリガー,(3)単発の即効性,(HG-IDA*)一発のキーワードレベルデトキシフィケーションにより,デバイス上の安全フィルタを回避し,一発のキーワードレベルデトキシフィケーションを行う。
3つのAndroidアプリケーション内で、クローズドソースサービスや代表的なオープンソースモデルを含む複数のLVLMバックエンドを評価し、シングルショットシナリオ(例:GPT-4o:82.5%プランニング/75.0%実行)でハイプランニングと実行のハイジャックレートを観察します。
これらの発見は、現在のモバイルエージェントの基本的なセキュリティ上の脆弱性が、スマートフォンの自律操作にすぐに影響することを示している。
関連論文リスト
- SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。
フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。
本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-02-15T16:09:48Z) - Blind Gods and Broken Screens: Architecting a Secure, Intent-Centric Mobile Agent Operating System [30.443894673057816]
我々は,Doubao Mobile Assistantを用いて,最先端のモバイルエージェントのシステムセキュリティ分析を行う。
我々は脅威の風景をエージェントアイデンティティ、外部インタフェース、内部推論、アクション実行の4つの次元に分解する。
クリーンスレート安全なエージェントOSであるAuraを提案する。
論文 参考訳(メタデータ) (2026-02-11T14:52:27Z) - Anonymization-Enhanced Privacy Protection for Mobile GUI Agents: Available but Invisible [12.742325129012576]
Mobile Graphical User Interface (GUI)エージェントは、複雑なスマートフォンタスクを自動化する強力な機能を示している。
本稿では,機密データへのアクセスの原則を強制する匿名化に基づくプライバシー保護フレームワークを提案する。
本システムは,PII認識モデルを用いてセンシティブなUIコンテンツを検出し,それを決定論的型保存プレースホルダーに置き換える。
論文 参考訳(メタデータ) (2026-02-08T15:50:04Z) - Okara: Detection and Attribution of TLS Man-in-the-Middle Vulnerabilities in Android Apps with Foundation Models [3.9807330903947378]
トランスポート層セキュリティ(TLS)は、オンライン通信のセキュア化に基本である。
Man-in-the-Middle(MitM)による攻撃は、Androidアプリにとって大きな脅威だ。
我々は,MitM脆弱性の検出と帰属を自動化するフレームワークであるOkaraを紹介する。
論文 参考訳(メタデータ) (2026-01-30T09:49:09Z) - Just Ask: Curious Code Agents Reveal System Prompts in Frontier LLMs [65.6660735371212]
textbftextscJustAskは,インタラクションのみで効果的な抽出戦略を自律的に発見するフレームワークである。
これは、アッパー信頼境界に基づく戦略選択と、原子プローブと高レベルのオーケストレーションにまたがる階層的なスキル空間を用いて、オンライン探索問題として抽出を定式化する。
この結果から,現代のエージェントシステムにおいて,システムプロンプトは致命的ではあるがほぼ無防備な攻撃面であることがわかった。
論文 参考訳(メタデータ) (2026-01-29T03:53:25Z) - Mind the Gap: Time-of-Check to Time-of-Use Vulnerabilities in LLM-Enabled Agents [4.303444472156151]
大規模言語モデル(LLM)対応エージェントは、広範囲のアプリケーションで急速に出現している。
本研究は,LSM対応エージェントにおけるTOCTOU(time-of-use)脆弱性に関する最初の研究である。
我々は,このタイプの脆弱性を評価するために設計された,66の現実的なユーザタスクを備えたベンチマークTOCTOU-Benchを紹介する。
論文 参考訳(メタデータ) (2025-08-23T22:41:49Z) - VisualTrap: A Stealthy Backdoor Attack on GUI Agents via Visual Grounding Manipulation [73.92237451442752]
この研究は、GUI要素に対するGUIエージェントをマッピングするテキストプランの視覚的基盤が脆弱性をもたらすことを明らかにしている。
視覚的接地を目的としたバックドア攻撃では、適切なタスク解決計画が与えられた場合でもエージェントの行動が損なわれる可能性がある。
そこで我々は,エージェントが意図したターゲットではなく,意図した位置をトリガーするテキストプランを見つけることをミスリードすることで,グラウンドディングをハイジャックできるVisualTrapを提案する。
論文 参考訳(メタデータ) (2025-07-09T14:36:00Z) - Poison Once, Control Anywhere: Clean-Text Visual Backdoors in VLM-based Mobile Agents [54.35629963816521]
この研究は、VLMベースのモバイルエージェントをターゲットにした最初のクリーンテキストバックドアアタックであるVIBMAを紹介する。
この攻撃は、視覚的な入力だけを変更することによって、悪意ある振る舞いをモデルに注入する。
クリーンタスクの動作を保ちながら高い成功率を達成できることを示す。
論文 参考訳(メタデータ) (2025-06-16T08:09:32Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - MELON: Provable Defense Against Indirect Prompt Injection Attacks in AI Agents [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱であり、ツール検索情報に埋め込まれた悪意のあるタスクはエージェントをリダイレクトして不正なアクションを取ることができる。
マスク機能によって修正されたマスク付きユーザでエージェントの軌道を再実行することで攻撃を検知する新しいIPIディフェンスであるMELONを提案する。
論文 参考訳(メタデータ) (2025-02-07T18:57:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。