論文の概要: Visual Confused Deputy: Exploiting and Defending Perception Failures in Computer-Using Agents
- arxiv url: http://arxiv.org/abs/2603.14707v1
- Date: Mon, 16 Mar 2026 01:31:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.98149
- Title: Visual Confused Deputy: Exploiting and Defending Perception Failures in Computer-Using Agents
- Title(参考訳): 視覚障害者副官:コンピュータ使用エージェントの爆発と知覚障害の予防
- Authors: Xunzhuo Liu, Bowei He, Xue Liu, Andy Luo, Haichen Zhang, Huamin Chen,
- Abstract要約: コンピュータ利用エージェント(CUA)はグラフィカルユーザインタフェースに直接作用するが、画面に対する認識は信頼できないことが多い。
我々は、エージェントが誤認識された画面状態に基づいてアクションを認可する障害モードである視覚的混乱副産物を形式化する。
この脅威を軽減するため,エージェントの知覚ループ外で動作する最初のガードレールを提案する。
- 参考スコア(独自算出の注目度): 9.457255218406333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computer-using agents (CUAs) act directly on graphical user interfaces, yet their perception of the screen is often unreliable. Existing work largely treats these failures as performance limitations, asking whether an action succeeds, rather than whether the agent is acting on the correct object at all. We argue that this is fundamentally a security problem. We formalize the visual confused deputy: a failure mode in which an agent authorizes an action based on a misperceived screen state, due to grounding errors, adversarial screenshot manipulation, or time-of-check-to-time-of-use (TOCTOU) races. This gap is practically exploitable: even simple screen-level manipulations can redirect routine clicks into privileged actions while remaining indistinguishable from ordinary agent mistakes. To mitigate this threat, we propose the first guardrail that operates outside the agent's perceptual loop. Our method, dual-channel contrastive classification, independently evaluates (1) the visual click target and (2) the agent's reasoning about the action against deployment-specific knowledge bases, and blocks execution if either channel indicates risk. The key insight is that these two channels capture complementary failure modes: visual evidence detects target-level mismatches, while textual reasoning reveals dangerous intent behind visually innocuous controls. Across controlled attacks, real GUI screenshots, and agent traces, the combined guardrail consistently outperforms either channel alone. Our results suggest that CUA safety requires not only better action generation, but independent verification of what the agent believes it is clicking and why. Materials are provided\footnote{Model, benchmark, and code: https://github.com/vllm-project/semantic-router}.
- Abstract(参考訳): コンピュータ利用エージェント(CUA)はグラフィカルユーザインタフェースに直接作用するが、画面に対する認識は信頼できないことが多い。
既存の作業は、エージェントが正しいオブジェクトに作用しているかどうかではなく、アクションが成功するかどうかを問うことで、これらの障害をパフォーマンス上の制限として扱う。
これは基本的にセキュリティの問題だ、と私たちは主張する。
エージェントが誤認識された画面状態に基づいて動作を許可する障害モード、すなわち、エラーの根拠付け、逆スクリーンショット操作、タイム・オブ・タイム・オブ・ユース(TOCTOU)レースを定式化する。
単純なスクリーンレベルの操作でも、通常のエージェントのミスと区別できないまま、通常のクリックを特権的なアクションにリダイレクトすることができる。
この脅威を軽減するため,エージェントの知覚ループ外で動作する最初のガードレールを提案する。
本手法は,(1)視覚的クリック目標と(2)デプロイ固有の知識ベースに対するエージェントの推論を独立に評価し,いずれかのチャネルがリスクを示す場合の実行をブロックする。
視覚的証拠は目標レベルのミスマッチを検出し、テキスト推論は視覚的に無害な制御の背後にある危険な意図を明らかにします。
コントロールされたアタック、実際のGUIスクリーンショット、エージェントトレースなどを通じて、組み合わせたガードレールは、チャンネル単独で一貫してパフォーマンスが向上する。
以上の結果から,CUAの安全性は,より優れたアクション生成だけでなく,エージェントがクリックしていると考えるものや理由の独立した検証が必要であることが示唆された。
材料は https://github.com/vllm-project/semantic-router} である。
関連論文リスト
- Atomicity for Agents: Exposing, Exploiting, and Mitigating TOCTOU Vulnerabilities in Browser-Use Agents [15.381306470663695]
ブラウザ利用エージェントにおけるTOCTOU脆弱性に関する大規模な実証的研究を行った。
動的または敵対的なWebコンテンツは、意図しないアクションを誘発するためにこのウィンドウを利用することができる。
我々は、事前実行検証に基づく軽量な緩和を設計する。
論文 参考訳(メタデータ) (2026-02-28T05:25:03Z) - SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。
フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。
本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-02-15T16:09:48Z) - Blind Gods and Broken Screens: Architecting a Secure, Intent-Centric Mobile Agent Operating System [30.443894673057816]
我々は,Doubao Mobile Assistantを用いて,最先端のモバイルエージェントのシステムセキュリティ分析を行う。
我々は脅威の風景をエージェントアイデンティティ、外部インタフェース、内部推論、アクション実行の4つの次元に分解する。
クリーンスレート安全なエージェントOSであるAuraを提案する。
論文 参考訳(メタデータ) (2026-02-11T14:52:27Z) - Zero-Permission Manipulation: Can We Trust Large Multimodal Model Powered GUI Agents? [6.9619059967556725]
アクションリバインド(Action Rebinding)は、エージェントの実行をリバインドする危険な権限をゼロにする、一見良心的なアプリを可能にする、新たな攻撃である。
エージェントのタスク回復ロジックとAndroidのUI状態保存を武器化し、プログラム可能なマルチステップアタックチェーンを編成する。
以上の結果から,原子間相互作用リバインディングの成功率は100%であり,マルチステップアタックチェーンを確実にオーケストレーションできることが示唆された。
論文 参考訳(メタデータ) (2026-01-18T10:54:54Z) - Adaptive Attacks on Trusted Monitors Subvert AI Control Protocols [80.68060125494645]
プロトコルとモニタモデルを知っている信頼できないモデルによるアダプティブアタックについて検討する。
我々は、攻撃者がモデル出力に公知またはゼロショットプロンプトインジェクションを埋め込む単純な適応攻撃ベクトルをインスタンス化する。
論文 参考訳(メタデータ) (2025-10-10T15:12:44Z) - Malice in Agentland: Down the Rabbit Hole of Backdoors in the AI Supply Chain [82.98626829232899]
自分自身のインタラクションからのデータに対する微調整のAIエージェントは、AIサプライチェーン内の重要なセキュリティ脆弱性を導入している。
敵は容易にデータ収集パイプラインに毒を盛り、検出しにくいバックドアを埋め込むことができる。
論文 参考訳(メタデータ) (2025-10-03T12:47:21Z) - Poison Once, Control Anywhere: Clean-Text Visual Backdoors in VLM-based Mobile Agents [54.35629963816521]
この研究は、VLMベースのモバイルエージェントをターゲットにした最初のクリーンテキストバックドアアタックであるVIBMAを紹介する。
この攻撃は、視覚的な入力だけを変更することによって、悪意ある振る舞いをモデルに注入する。
クリーンタスクの動作を保ちながら高い成功率を達成できることを示す。
論文 参考訳(メタデータ) (2025-06-16T08:09:32Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。