論文の概要: Temporal UI State Inconsistency in Desktop GUI Agents: Formalizing and Defending Against TOCTOU Attacks on Computer-Use Agents
- arxiv url: http://arxiv.org/abs/2604.18860v1
- Date: Mon, 20 Apr 2026 21:36:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.507465
- Title: Temporal UI State Inconsistency in Desktop GUI Agents: Formalizing and Defending Against TOCTOU Attacks on Computer-Use Agents
- Title(参考訳): デスクトップGUIエージェントにおける時間的UI状態の不整合:コンピュータ利用エージェントに対するToCTOU攻撃の形式化と防御
- Authors: Wenpeng Xu,
- Abstract要約: スクリーンショットとクリックのループを通じてデスクトップコンピュータを制御するGUIエージェントは、新しいタイプの脆弱性を導入している。
我々はこれを視覚的原子性暴力として形式化し、3つの具体的な攻撃プリミティブを特徴付ける。
本稿では,アクションディスパッチの直前にUI状態を再検証する軽量な3層ディフェンスを提案する。
- 参考スコア(独自算出の注目度): 0.7360807642941714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GUI agents that control desktop computers via screenshot-and-click loops introduce a new class of vulnerability: the observation-to-action gap (mean 6.51 s on real OSWorld workloads) creates a Time-Of-Check, Time-Of-Use (TOCTOU) window during which an unprivileged attacker can manipulate the UI state. We formalize this as a Visual Atomicity Violation and characterize three concrete attack primitives: (A) Notification Overlay Hijack, (B) Window Focus Manipulation, and (C) Web DOM Injection. Primitive B, the closest desktop analog to Android Action Rebinding, achieves 100% action-redirection success rate with zero visual evidence at the observation time. We propose Pre-execution UI State Verification (PUSV), a lightweight three-layer defense that re-verifies the UI state immediately before each action dispatch: masked pixel SSIM at the click target (L1), global screenshot diff (L2a), and X Window snapshot diff (L2b). PUSV achieves 100% Action Interception Rate across 180 adversarial trials (135 Primitive A + 45 Primitive B) with zero false positives and < 0.1 s overhead. Against Primitive C (zero-visual-footprint DOM injection), PUSV reveals a structural blind spot (~0% AIR), motivating future OS+DOM defense-in-depth architectures. No single PUSV layer alone achieves full coverage; different primitives require different detection signals, validating the layered design.
- Abstract(参考訳): スクリーンショットとクリックのループを通じてデスクトップコンピュータを制御するGUIエージェントは、新しいタイプの脆弱性を導入した。 監視とアクションのギャップ(実際のOSWorldワークロードでは6.51秒)は、特権のない攻撃者がUI状態を操作できる時間-オフ、時間-オフ-Use(TOCTOU)ウィンドウを作成する。
我々はこれを視覚的アトミック違反として形式化し、(A)通知オーバーレイハイジャック、(B)ウィンドウフォーカス操作、(C)Web DOMインジェクションの3つの具体的な攻撃プリミティブを特徴付ける。
Android Action Rebindingに最も近いデスクトップアナログであるPrimitive Bは、観察時の視覚的証拠をゼロに、100%のアクションリダイレクト成功率を達成する。
本稿では,各アクションディスパッチの直前にUI状態を再検証する軽量な3層ディフェンスであるPUSV(Pre-execution UI State Verification)を提案し,クリックターゲット(L1),グローバルスクリーンショット差分(L2a),X Windowスナップショット差分(L2b)を提案する。
PUSVは180回の逆行試験(Primitive A + 45 Primitive B)で100%のAction Interception Rateを達成し、偽陽性はゼロ、オーバーヘッドは0.1秒である。
プリミティブC(ゼロビジュアルフットプリントDOMインジェクション)に対して、PUSVは構造的な盲点(~0% AIR)を明らかにし、将来のOS+DOMディフェンスインディースアーキテクチャを動機付けている。
単一のPUSV層だけでは完全なカバレッジが得られず、異なるプリミティブは異なる検出信号を必要とし、層設計を検証する。
関連論文リスト
- AgentRAE: Remote Action Execution through Notification-based Visual Backdoors against Screenshots-based Mobile GUI Agents [18.82273534480229]
モバイルグラフィカルユーザインタフェース(GUI)エージェントは、アプリケーションとオペレーティングシステム(OS)を自律的に制御する
本稿では,視覚的に自然なトリガを用いたモバイルGUIエージェントにおけるリモートアクション実行を誘導する新しいバックドアアタックであるAgentRAEを提案する。
評価の結果,提案したバックドアは10個のモバイル操作に対して90%以上の攻撃成功率でクリーンな性能を保っていることが明らかとなった。
論文 参考訳(メタデータ) (2026-03-24T09:51:43Z) - SlowBA: An efficiency backdoor attack towards VLM-based GUI agents [13.613479645526334]
本稿では、VLMベースのGUIエージェントの応答性をターゲットとした、新しいバックドア攻撃であるSlowBAを紹介する。
キーとなるアイデアは、特定のトリガーパターンの下で過度に長い推論チェーンを誘導することで、レスポンスのレイテンシを操作することです。
実験により、SlowBAはタスクの正確性を大きく保ちながら、応答長とレイテンシを大幅に向上できることが示された。
論文 参考訳(メタデータ) (2026-03-09T12:38:28Z) - CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents [60.98294016925157]
AIエージェントは、悪意のあるコンテンツがエージェントの行動をハイジャックして認証情報を盗んだり、金銭的損失を引き起こすような、インジェクション攻撃に弱い。
CUAのためのシングルショットプランニングでは、信頼できるプランナーが、潜在的に悪意のあるコンテンツを観察する前に、条件付きブランチで完全な実行グラフを生成する。
このアーキテクチャ分離は命令インジェクションを効果的に防止するが、ブランチステアリング攻撃を防ぐには追加の対策が必要であることを示す。
論文 参考訳(メタデータ) (2026-01-14T23:06:35Z) - Poison Once, Control Anywhere: Clean-Text Visual Backdoors in VLM-based Mobile Agents [54.35629963816521]
この研究は、VLMベースのモバイルエージェントをターゲットにした最初のクリーンテキストバックドアアタックであるVIBMAを紹介する。
この攻撃は、視覚的な入力だけを変更することによって、悪意ある振る舞いをモデルに注入する。
クリーンタスクの動作を保ちながら高い成功率を達成できることを示す。
論文 参考訳(メタデータ) (2025-06-16T08:09:32Z) - VPI-Bench: Visual Prompt Injection Attacks for Computer-Use Agents [74.6761188527948]
完全なシステムアクセスを持つコンピュータ利用エージェント(CUA)は、セキュリティとプライバシの重大なリスクを負う。
我々は、悪意のある命令がレンダリングされたユーザーインターフェイスに視覚的に埋め込まれた視覚的プロンプトインジェクション(VPI)攻撃について検討する。
実験により,現在のCUAとBUAは,それぞれのプラットフォーム上で最大51%,100%の速度で騙すことができることがわかった。
論文 参考訳(メタデータ) (2025-06-03T05:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。