論文の概要: RedTeamCUA: Realistic Adversarial Testing of Computer-Use Agents in Hybrid Web-OS Environments
- arxiv url: http://arxiv.org/abs/2505.21936v2
- Date: Sun, 01 Jun 2025 00:04:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 13:48:30.026436
- Title: RedTeamCUA: Realistic Adversarial Testing of Computer-Use Agents in Hybrid Web-OS Environments
- Title(参考訳): RedTeamCUA: ハイブリッドWeb-OS環境におけるコンピュータ利用エージェントの現実的対角テスト
- Authors: Zeyi Liao, Jaylen Jones, Linxi Jiang, Eric Fosler-Lussier, Yu Su, Zhiqiang Lin, Huan Sun,
- Abstract要約: コンピュータ利用エージェント(CUA)はOS(OS)とウェブにまたがる複雑なタスクを自動化することを約束するが、間接的なプロンプトインジェクションには弱いままである。
我々は,VMベースのOS環境とDockerベースのWebプラットフォームを統合する,新しいハイブリッドサンドボックスを備えた,敵対的なテストフレームワークであるRedTeamCUAを提案する。
RedTeamCUAは、CUAの脆弱性を現実的で、制御され、体系的に分析するために必要なフレームワークを提供する。
- 参考スコア(独自算出の注目度): 40.354694210052095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer-use agents (CUAs) promise to automate complex tasks across operating systems (OS) and the web, but remain vulnerable to indirect prompt injection. Current evaluations of this threat either lack support realistic but controlled environments or ignore hybrid web-OS attack scenarios involving both interfaces. To address this, we propose RedTeamCUA, an adversarial testing framework featuring a novel hybrid sandbox that integrates a VM-based OS environment with Docker-based web platforms. Our sandbox supports key features tailored for red teaming, such as flexible adversarial scenario configuration, and a setting that decouples adversarial evaluation from navigational limitations of CUAs by initializing tests directly at the point of an adversarial injection. Using RedTeamCUA, we develop RTC-Bench, a comprehensive benchmark with 864 examples that investigate realistic, hybrid web-OS attack scenarios and fundamental security vulnerabilities. Benchmarking current frontier CUAs identifies significant vulnerabilities: Claude 3.7 Sonnet | CUA demonstrates an ASR of 42.9%, while Operator, the most secure CUA evaluated, still exhibits an ASR of 7.6%. Notably, CUAs often attempt to execute adversarial tasks with an Attempt Rate as high as 92.5%, although failing to complete them due to capability limitations. Nevertheless, we observe concerning ASRs of up to 50% in realistic end-to-end settings, with the recently released frontier Claude 4 Opus | CUA showing an alarming ASR of 48%, demonstrating that indirect prompt injection presents tangible risks for even advanced CUAs despite their capabilities and safeguards. Overall, RedTeamCUA provides an essential framework for advancing realistic, controlled, and systematic analysis of CUA vulnerabilities, highlighting the urgent need for robust defenses to indirect prompt injection prior to real-world deployment.
- Abstract(参考訳): コンピュータ利用エージェント(CUA)はOS(OS)とウェブにまたがる複雑なタスクを自動化することを約束するが、間接的なプロンプトインジェクションには弱いままである。
この脅威に対する現在の評価では、現実的だが制御された環境が欠けているか、両方のインターフェースを含むハイブリッドWeb-OS攻撃シナリオを無視している。
そこで本研究では,VMベースのOS環境とDockerベースのWebプラットフォームを統合した,新たなハイブリッドサンドボックスを備えた,敵対的なテストフレームワークであるRedTeamCUAを提案する。
我々のサンドボックスは, フレキシブルな対向シナリオ構成や, 対向インジェクションの時点でテストを直接初期化することにより, CUAのナビゲーション制限から対向評価を分離する設定など, レッドチームに適した重要な機能をサポートしている。
RedTeamCUAを使用して、現実的でハイブリッドなWeb-OS攻撃シナリオと基本的なセキュリティ脆弱性を調査する864例の包括的なベンチマークであるRTC-Benchを開発した。
Claude 3.7 Sonnet | CUAは42.9%のASRを示し、最も安全なCUAであるOperatorは7.6%のASRを示している。
特にCUAは92.5%の確率で敵のタスクを実行しようとするが、能力の制限により完了しなかった。
しかし,最近リリースされたフロンティアのClaude 4 Opus | CUAでは,48%のアラームがみられ,間接的プロンプト注入は,機能や安全にもかかわらず,高度なCUAに対して有意なリスクを生じさせることを示した。
全体として、RedTeamCUAはCUAの脆弱性を現実的で制御し、体系的に分析する上で不可欠なフレームワークを提供する。
関連論文リスト
- CANTXSec: A Deterministic Intrusion Detection and Prevention System for CAN Bus Monitoring ECU Activations [53.036288487863786]
物理ECUアクティベーションに基づく最初の決定論的侵入検知・防止システムであるCANTXSecを提案する。
CANバスの古典的な攻撃を検知・防止し、文献では調査されていない高度な攻撃を検知する。
物理テストベッド上での解法の有効性を実証し,攻撃の両クラスにおいて100%検出精度を達成し,100%のFIAを防止した。
論文 参考訳(メタデータ) (2025-05-14T13:37:07Z) - RedTeamLLM: an Agentic AI framework for offensive security [0.0]
我々は,ペンテストタスクの自動化のための総合的なセキュリティモデルを備えた統合アーキテクチャであるRedTeamLLMを提案し,評価する。
RedTeamLLMは3つの重要なステップに従っている。
評価は、一連のエントリーレベルの自動解決を通じて行われるが、簡単なことではなく、CTFの課題である。
論文 参考訳(メタデータ) (2025-05-11T09:19:10Z) - AGENTFUZZER: Generic Black-Box Fuzzing for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジィングフレームワークであるAgentXploitを提案する。
我々は、AgentXploitをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - The Cost of Performance: Breaking ThreadX with Kernel Object Masquerading Attacks [16.54210795506388]
一般的なリアルタイムオペレーティングシステム(RTOS)には,セキュリティ保護が欠如していることが示されている。
ThreadXでは,セキュリティ脆弱性を導入し,パラメータ・サニタイズ・プロセスの回避を可能にするパフォーマンス最適化のプラクティスを特定している。
我々は,Kernel Object Masquerading (KOM) 攻撃を識別するために,制約の少ないシンボル実行を含む自動アプローチを導入する。
論文 参考訳(メタデータ) (2025-04-28T05:01:35Z) - AutoRedTeamer: Autonomous Red Teaming with Lifelong Attack Integration [40.350632196772466]
本稿では,大規模言語モデル(LLM)に対する完全自動化とエンドツーエンドのレッドコラボレーションのための新しいフレームワークであるAutoRedTeamerを紹介する。
AutoRedTeamerはマルチエージェントアーキテクチャとメモリ誘導型攻撃選択機構を組み合わせることで、新たな攻撃ベクトルの継続的な発見と統合を可能にする。
我々は、さまざまな評価設定でAutoRedTeamerの有効性を示し、HarmBenchのLlama-3.1-70Bに対する攻撃成功率を20%向上させた。
論文 参考訳(メタデータ) (2025-03-20T00:13:04Z) - Adaptive Attacks Break Defenses Against Indirect Prompt Injection Attacks on LLM Agents [3.5248694676821484]
我々は8つの異なる防御効果を評価し、それら全てを適応攻撃を用いてバイパスし、連続して50%以上の攻撃成功率を達成する。
本研究は,ロバスト性と信頼性を確保するために,防御設計における適応攻撃評価の必要性を明らかにするものである。
論文 参考訳(メタデータ) (2025-02-27T04:04:50Z) - AdvAgent: Controllable Blackbox Red-teaming on Web Agents [22.682464365220916]
AdvAgentは、Webエージェントを攻撃するためのブラックボックスのレッドチームフレームワークである。
強化学習に基づくパイプラインを使用して、敵のプロンプトモデルをトレーニングする。
慎重な攻撃設計では、エージェントの弱点を効果的に活用し、ステルス性と制御性を維持する。
論文 参考訳(メタデータ) (2024-10-22T20:18:26Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - Adversarial EXEmples: A Survey and Experimental Evaluation of Practical
Attacks on Machine Learning for Windows Malware Detection [67.53296659361598]
EXEmplesは、比較的少ない入力バイトを摂動することで、機械学習に基づく検出をバイパスすることができる。
我々は、機械学習モデルに対する過去の攻撃を包含し、一般化するだけでなく、3つの新たな攻撃を含む統一フレームワークを開発する。
これらの攻撃はFull DOS、Extended、Shiftと呼ばれ、DOSヘッダをそれぞれ操作し、拡張し、第1セクションの内容を変更することで、敵のペイロードを注入する。
論文 参考訳(メタデータ) (2020-08-17T07:16:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。