論文の概要: MirrorGuard: Toward Secure Computer-Use Agents via Simulation-to-Real Reasoning Correction
- arxiv url: http://arxiv.org/abs/2601.12822v1
- Date: Mon, 19 Jan 2026 08:32:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.809416
- Title: MirrorGuard: Toward Secure Computer-Use Agents via Simulation-to-Real Reasoning Correction
- Title(参考訳): MirrorGuard: シミュレーション・ツー・リアル推論補正によるセキュアなコンピュータ利用エージェントを目指して
- Authors: Wenqi Zhang, Yulin Shen, Changyue Jiang, Jiarun Dai, Geng Hong, Xudong Pan,
- Abstract要約: 実世界のCUAセキュリティを改善するためにシミュレーションベースのトレーニングを利用するプラグアンドプレイディフェンスフレームワークであるMirrorGuardを紹介する。
MirrorGuard氏は、CUAの安全でない推論チェーンをインターセプトし、修正して、安全でないアクションを生成し、実行することを学ぶ。
我々の研究は、シミュレーションによる防御は、エージェントの基本的な実用性を維持しながら、堅牢で現実世界の保護を提供することができることを証明している。
- 参考スコア(独自算出の注目度): 16.58862217164395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large foundation models are integrated into Computer Use Agents (CUAs), enabling autonomous interaction with operating systems through graphical user interfaces (GUIs) to perform complex tasks. This autonomy introduces serious security risks: malicious instructions or visual prompt injections can trigger unsafe reasoning and cause harmful system-level actions. Existing defenses, such as detection-based blocking, prevent damage but often abort tasks prematurely, reducing agent utility. In this paper, we present MirrorGuard, a plug-and-play defense framework that uses simulation-based training to improve CUA security in the real world. To reduce the cost of large-scale training in operating systems, we propose a novel neural-symbolic simulation pipeline, which generates realistic, high-risk GUI interaction trajectories entirely in a text-based simulated environment, which captures unsafe reasoning patterns and potential system hazards without executing real operations. In the simulation environment, MirrorGuard learns to intercept and rectify insecure reasoning chains of CUAs before they produce and execute unsafe actions. In real-world testing, extensive evaluations across diverse benchmarks and CUA architectures show that MirrorGuard significantly mitigates security risks. For instance, on the ByteDance UI-TARS system, it reduces the unsafe rate from 66.5% to 13.0% while maintaining a marginal false refusal rate (FRR). In contrast, the state-of-the-art GuardAgent only achieves a reduction to 53.9% and suffers from a 15.4% higher FRR. Our work proves that simulation-derived defenses can provide robust, real-world protection while maintaining the fundamental utility of the agent. Our code and model are publicly available at https://bmz-q-q.github.io/MirrorGuard/.
- Abstract(参考訳): 大規模な基盤モデルはCUA(Computer Use Agents)に統合され、グラフィカルユーザインタフェース(GUI)を介してオペレーティングシステムと自律的に対話して複雑なタスクを実行できる。
悪意のある指示や視覚的なプロンプトインジェクションは、安全でない推論を引き起こし、有害なシステムレベルのアクションを引き起こす可能性がある。
検出ベースのブロッキングのような既存の防御は損傷を防ぐが、しばしばタスクを早期に停止させ、エージェントの効用を低減させる。
本稿では,実世界のCUAセキュリティを改善するために,シミュレーションベースのトレーニングを利用するプラグアンドプレイディフェンスフレームワークであるMirrorGuardを提案する。
オペレーティングシステムにおける大規模トレーニングのコストを低減するため,本研究では,現実的な高リスクGUIインタラクショントラジェクトリをテキストベースのシミュレート環境で生成するニューラルシンボリックシミュレーションパイプラインを提案する。
シミュレーション環境では、MirrorGuard氏は、CUAの安全でない推論チェーンをインターセプトし、修正して、安全でないアクションを生成し、実行することを学ぶ。
実世界のテストでは、さまざまなベンチマークやCUAアーキテクチャにわたる広範な評価が、MirrorGuardがセキュリティリスクを著しく軽減していることを示している。
例えば、ByteDance UI-TARSシステムでは、安全でないレートを66.5%から13.0%に削減し、限界的な偽拒絶率(FRR)を維持する。
対照的に、最先端のガードアジェントは53.9%に減らされ、15.4%のFRRに苦しむのみである。
我々の研究は、シミュレーションによる防御は、エージェントの基本的な実用性を維持しながら、堅牢で現実世界の保護を提供することができることを証明している。
私たちのコードとモデルはhttps://bmz-q-q.github.io/MirrorGuard/で公開されています。
関連論文リスト
- ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents [60.98294016925157]
AIエージェントは、悪意のあるコンテンツがエージェントの行動をハイジャックして認証情報を盗んだり、金銭的損失を引き起こすような、インジェクション攻撃に弱い。
CUAのためのシングルショットプランニングでは、信頼できるプランナーが、潜在的に悪意のあるコンテンツを観察する前に、条件付きブランチで完全な実行グラフを生成する。
このアーキテクチャ分離は命令インジェクションを効果的に防止するが、ブランチステアリング攻撃を防ぐには追加の対策が必要であることを示す。
論文 参考訳(メタデータ) (2026-01-14T23:06:35Z) - Adaptive Attacks on Trusted Monitors Subvert AI Control Protocols [80.68060125494645]
プロトコルとモニタモデルを知っている信頼できないモデルによるアダプティブアタックについて検討する。
我々は、攻撃者がモデル出力に公知またはゼロショットプロンプトインジェクションを埋め込む単純な適応攻撃ベクトルをインスタンス化する。
論文 参考訳(メタデータ) (2025-10-10T15:12:44Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z) - Guardians of the Agentic System: Preventing Many Shots Jailbreak with Agentic System [0.8136541584281987]
本研究は,3つの検査手法を用いて,逆チューリングテストによりローグエージェントを検出し,マルチエージェントシミュレーションにより知覚的アライメントを解析する。
GEMINI 1.5 Pro と llama-3.3-70B, Deepseek r1 モデルを用いて, 抗ジェイルブレイクシステムを開発した。
GEMINI 1.5 Proの94%の精度など、検出能力は強いが、長時間の攻撃を受けた場合、システムは永続的な脆弱性に悩まされる。
論文 参考訳(メタデータ) (2025-02-23T23:35:15Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。