論文の概要: Domain-Conditioned Safety in Frontier Computer-Using Agents: A 793-Episode Browser Benchmark, a Coding-Domain Cross-Reference, and a Reproducibility Audit of Recent Red-Teaming
- arxiv url: http://arxiv.org/abs/2606.05233v1
- Date: Wed, 03 Jun 2026 01:21:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.266222
- Title: Domain-Conditioned Safety in Frontier Computer-Using Agents: A 793-Episode Browser Benchmark, a Coding-Domain Cross-Reference, and a Reproducibility Audit of Recent Red-Teaming
- Title(参考訳): 最前線のコンピュータ利用エージェントにおけるドメイン依存型安全性: 793-Episode Browserベンチマーク、コード-ドメイン相互参照、そして最近のレッドチームにおける再現性監査
- Authors: Nicholas Saban,
- Abstract要約: 最近のCUA (Computer-using-agent) レポートでは、プロンプトインジェクションアタック成功率 (ASR) は42-98%と報告されている。
我々は,手作りテンプレートとして再現されたこれらのテクニックが,現在のフロンティアCUAに対して有効であるかどうかを問う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent computer-using-agent (CUA) red-teaming papers report prompt-injection attack success rates (ASR) of 42-98%, but these headline numbers cluster on retired models and on the most-vulnerable model in each paper's panel. We ask whether those techniques, reproduced as hand-crafted templates, still work against current frontier CUAs. We release CUA-HandCrafted, a public benchmark of 793 episodes spanning 24 multi-step web tasks, 56 attack templates, 8 attack families, and 4 system-prompt configurations. Against Claude Sonnet 4.6 and GPT-5.4 we measure 0/140 multi-step attack success (Clopper-Pearson 95% upper bound 2.60%); a prompt ablation shows this resistance lives in the model weights. Yet it does not generalize: on a sister coding-agent benchmark (SkillBench), the same weights fall to hand-crafted skill-injection at up to 100%. We argue that the literature's high ASR is largely attributable to RL-optimized injection text rather than the attack categories, and that frontier safety hardening is domain-conditioned, specific to the heavily-targeted browser surface. Reporting techniques without releasing the optimized strings, or extrapolating browser-domain safety to other CUA modalities, makes published ASR numbers unreproducible.
- Abstract(参考訳): 近年のCUA (Computer-using-agent) では,42~98%の攻撃成功率 (ASR) が報告されている。
我々は,手作りテンプレートとして再現されたこれらのテクニックが,現在のフロンティアCUAに対して有効であるかどうかを問う。
CUA-HandCraftedは、24のマルチステップWebタスク、56のアタックテンプレート、8のアタックファミリー、4のシステムプロンプト構成にまたがる793エピソードのパブリックベンチマークである。
Claude Sonnet 4.6 と GPT-5.4 に対して、0/140 個のマルチステップ攻撃の成功(Clopper-Pearson 95%上界 2.60%)を測定する。
姉妹のコーディングエージェントベンチマーク(SkillBench)では、手作りのスキルインジェクションに最大100%の重みがある。
文献の高度 ASR は攻撃カテゴリよりも RL に最適化されたインジェクションテキストに大きく寄与し,フロンティア安全性の強化はドメインコンディショニングであり,高ターゲットのブラウザサーフェスに特有である,と我々は主張する。
最適化された文字列をリリースせずに、ブラウザドメインの安全性を他のCUAモダリティに外挿する手法は、公表されたASR番号を再現不可能にする。
関連論文リスト
- AgentRedBench: Dynamic Redteaming and Integration-Aware Defense for LLM Agents over SaaS Integrations [0.0954904463032233]
ツール・ユース・エージェントへの間接的なプロンプト・インジェクションは、具体的な生産上の脅威である。
AgentREDBENCHは、215の微妙な未特定認可シナリオのベンチマークである。
AgentREDGUARDは、逆ツール-レスポンスコンテンツの統合多言語コーパスで訓練されたガードである。
論文 参考訳(メタデータ) (2026-06-01T13:34:24Z) - MOSAIC-Bench: Measuring Compositional Vulnerability Induction in Coding Agents [2.1942030377331245]
コーディングエージェントは、しばしばプロンプト毎の安全性レビューをパスするが、それらのタスクが通常のエンジニアリングチケットに分解されると、悪用可能なコードを出荷する。
199個の3段階攻撃チェーンのベンチマークであるMOSAIC-Benchを紹介する。
9つのプロダクションコーディングエージェントが53~86%の終末ASRで無害なチケットを構成しており、全ステージで2回しか拒否しないことを示す。
論文 参考訳(メタデータ) (2026-05-05T16:38:23Z) - How Vulnerable Are AI Agents to Indirect Prompt Injections? Insights from a Large-Scale Public Competition [48.32744727426218]
LLMベースのエージェントは、電子メール、ドキュメント、コードリポジトリなどの外部データソースを処理する高利得設定にますますデプロイされている。
これにより間接的なプロンプトインジェクション攻撃が発生し、外部コンテンツに埋め込まれた敵の命令は、ユーザの意識なしにエージェントの動作を操作できる。
この2つの目的を3つのエージェント設定で評価した。
論文 参考訳(メタデータ) (2026-03-16T14:49:36Z) - CLASP: Defending Hybrid Large Language Models Against Hidden State Poisoning Attacks [48.54598003197356]
Mambaのような状態空間モデル(SSM)はトランスフォーマーの効率的な代替品として大きな注目を集めている。
HiSPAsは、最近発見された脆弱性で、敵対する文字列を通じてSSMメモリを破損させる。
この脅威に対して防御するためのCLASPモデルを紹介します。
論文 参考訳(メタデータ) (2026-03-12T17:29:55Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - Penetration Testing of Agentic AI: A Comparative Security Analysis Across Models and Frameworks [0.0]
Agentic AIは、従来のLLMセーフガードが対処できないセキュリティ脆弱性を導入する。
エージェントAIシステムの最初の体系的テストと比較評価を行う。
新たな「ハロシントコンプライアンス」戦略を含む6つの防衛行動パターンを同定する。
論文 参考訳(メタデータ) (2025-12-16T19:22:50Z) - Characterizing Phishing Pages by JavaScript Capabilities [77.64740286751834]
本論文は,フィッシングページのグループを自動的に識別し,研究者やアナリストを支援することを目的としている。
キット検出の精度は,4,562個のフィッシングURLに展開した548個のキット群に対して97%であった。
UIの対話性と基本的なフィンガープリントは、クラスタの90%と80%に存在する普遍的なテクニックであることが分かりました。
論文 参考訳(メタデータ) (2025-09-16T15:39:23Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。