Fugu-MT 論文翻訳(概要): The Blind Spot of Agent Safety: How Benign User Instructions Expose Critical Vulnerabilities in Computer-Use Agents

論文の概要: The Blind Spot of Agent Safety: How Benign User Instructions Expose Critical Vulnerabilities in Computer-Use Agents

arxiv url: http://arxiv.org/abs/2604.10577v2
Date: Fri, 17 Apr 2026 07:20:03 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-20 13:38:49.204221
Title: The Blind Spot of Agent Safety: How Benign User Instructions Expose Critical Vulnerabilities in Computer-Use Agents
Title（参考訳）: エージェント・セーフティの盲点:コンピュータ・ユース・エージェントのユーザ・インストラクションがクリティカル・脆弱性をいかに露呈するか
Authors: Xuwei Ding, Skylar Zhai, Linxin Song, Jiate Li, Taiwei Shi, Nicholas Meade, Siva Reddy, Jian Kang, Jieyu Zhao,
Abstract要約: コンピュータ利用エージェント(CUA)は、現実の環境で複雑なタスクを自律的に完了させることができるが、誤解があれば自動化することもできる。意図しない攻撃条件下でCUAを評価するベンチマークOSBLINDを紹介する。ほとんどのCUAは90%の攻撃成功率(ASR)を超え、安全に配慮したClaude 4.5 Sonnetも72.7%に達している。
参考スコア（独自算出の注目度）: 29.98056047452529
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Computer-use agents (CUAs) can now autonomously complete complex tasks in real digital environments, but when misled, they can also be used to automate harmful actions programmatically. Existing safety evaluations largely target explicit threats such as misuse and prompt injection, but overlook a subtle yet critical setting where user instructions are entirely benign and harm arises from the task context or execution outcome. We introduce OS-BLIND, a benchmark that evaluates CUAs under unintended attack conditions, comprising 300 human-crafted tasks across 12 categories, 8 applications, and 2 threat clusters: environment-embedded threats and agent-initiated harms. Our evaluation on frontier models and agentic frameworks reveals that most CUAs exceed 90% attack success rate (ASR), and even the safety-aligned Claude 4.5 Sonnet reaches 73.0% ASR. More interestingly, this vulnerability becomes even more severe, with ASR rising from 73.0% to 92.7% when Claude 4.5 Sonnet is deployed in multi-agent systems. Our analysis further shows that existing safety defenses provide limited protection when user instructions are benign. Safety alignment primarily activates within the first few steps and rarely re-engages during subsequent execution. In multi-agent systems, decomposed subtasks obscure the harmful intent from the model, causing safety-aligned models to fail. We will release our OS-BLIND to encourage the broader research community to further investigate and address these safety challenges.
Abstract（参考訳）: コンピュータ利用エージェント(CUA)は、実際のデジタル環境での複雑なタスクを自律的に完了させることができるが、誤解があれば、有害なアクションをプログラム的に自動化するためにも使用できる。既存の安全性評価は、主に誤用やプロンプトインジェクションのような明示的な脅威をターゲットにしているが、ユーザ命令が完全に良心的であり、タスクコンテキストや実行結果から害が生じる微妙で批判的な設定を見落としている。我々は,意図しない攻撃条件下でCUAを評価するベンチマークであるOS-BLINDを紹介した。12のカテゴリ,8のアプリケーション,および2つの脅威クラスタ – 環境埋め込みの脅威とエージェント初期化障害 – を対象とした300のヒューマンクラフトタスクで構成されている。また,フロンティアモデルとエージェントフレームワークの評価から,ほとんどのCUAが90%以上の攻撃成功率 (ASR) を達成し,安全に整合した Claude 4.5 Sonnet さえも 73.0% ASR に達することが明らかとなった。さらに興味深いことに、この脆弱性はさらに深刻になり、Claude 4.5 Sonnetがマルチエージェントシステムにデプロイされると、ASRは73.0%から92.7%に上昇する。さらに,既存の安全対策は,ユーザ指示が良性である場合に限定的な保護を提供することを示す。安全アライメントは、最初の数ステップでアクティベートされ、実行中に再入力されることは滅多にない。マルチエージェントシステムでは、分解されたサブタスクはモデルからの有害な意図を曖昧にし、安全に整合したモデルが失敗する。我々はOS-BLINDをリリースし、より広範な研究コミュニティに対して、これらの安全上の課題をさらに調査し、対処するよう促します。

関連論文リスト

Your Agent, Their Asset: A Real-World Safety Analysis of OpenClaw [87.97230960702274]
本稿では,OpenClawの安全性評価について紹介する。エージェントの永続状態を3次元に統一するCIK分類法を導入する。評価では、ライブOpenClawインスタンス上の12のアタックシナリオをカバーしています。
論文参考訳（メタデータ） (2026-04-06T15:27:05Z)
Trojan's Whisper: Stealthy Manipulation of OpenClaw through Injected Bootstrapped Guidance [23.059379933610163]
ガイダンスインジェクション(Guidance Injection)は、ブートストラップのガイダンスファイルに敵の運用ストーリーを埋め込むステルス攻撃ベクターである。エクスプロイト,ワークスペース破壊,特権エスカレーション,持続的バックドア設置など,13の攻撃カテゴリにまたがる26の悪意あるスキルを構築した。我々の攻撃は16.4%から64.2%の確率で成功し、悪意のある行動の大半はユーザーの確認なしに自律的に実行される。
論文参考訳（メタデータ） (2026-03-20T14:17:56Z)
Internal Safety Collapse in Frontier Large Language Models [65.00730294617382]
この研究は、フロンティア大言語モデル(LLM)における重要な障害モードを特定する。特定のタスク条件下では、モデルは有害なコンテンツを連続的に生成し、そうでなければ良質なタスクを実行する状態に入る。有害なコンテンツを生成することが唯一有効な完了であるドメインタスクを通じてISCをトリガーするフレームワークであるTVDを紹介する。
論文参考訳（メタデータ） (2026-03-04T12:55:34Z)
ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。 ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文参考訳（メタデータ） (2026-01-15T08:23:38Z)
Securing AI Agents Against Prompt Injection Attacks [0.0]
本稿では,RAG対応AIエージェントのインジェクションリスク評価のためのベンチマークを提案する。本フレームワークは,攻撃速度を73.2%から8.7%に削減し,94.3%のベースラインタスク性能を維持した。
論文参考訳（メタデータ） (2025-11-19T10:00:54Z)
Jailbreak Mimicry: Automated Discovery of Narrative-Based Jailbreaks for Large Language Models [0.0]
大規模言語モデル(LLM)は、高度な迅速なエンジニアリング攻撃に対して脆弱なままである。我々は、物語ベースのジェイルブレイクプロンプトを自動生成するために、コンパクトアタッカーモデルを訓練するための体系的方法論であるジェイルブレイク・ミミミリを紹介する。我々のアプローチは、敵の迅速な発見を手作業の職人技から再現可能な科学的プロセスに変換する。
論文参考訳（メタデータ） (2025-10-24T23:53:16Z)
STAC: When Innocent Tools Form Dangerous Chains to Jailbreak LLM Agents [38.755035623707656]
本稿では,エージェントツールの利用を生かした新しいマルチターンアタックフレームワークSTACについて紹介する。我々は,483のSTACケースを自動生成し,評価するために,1,352セットのユーザエージェント環境相互作用を特徴とするフレームワークを適用した。 GPT-4.1を含む最先端のLSMエージェントはSTACに対して極めて脆弱であり,攻撃成功率(ASR)は90%以上である。
論文参考訳（メタデータ） (2025-09-30T00:31:44Z)
OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文参考訳（メタデータ） (2025-07-08T16:18:54Z)
OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents [60.78202583483591]
コンピュータ使用エージェントの安全性を計測する新しいベンチマークであるOS-Harmを紹介する。 OS-HarmはOSWorld環境上に構築されており、故意のユーザ誤用、インジェクション攻撃、モデル誤動作の3つのカテゴリでモデルをテストすることを目指している。我々は、フロンティアモデルに基づいてコンピュータ利用エージェントを評価し、その安全性に関する洞察を提供する。
論文参考訳（メタデータ） (2025-06-17T17:59:31Z)
AGENTSAFE: Benchmarking the Safety of Embodied Agents on Hazardous Instructions [64.85086226439954]
本稿では,有害な指示に対するVLMエージェントの安全性を評価するためのベンチマークであるSAFEを提案する。 SAFEは、SAFE−THOR、SAFE−VERSE、SAFE−DIAGNOSEの3つの成分からなる。我々は、ハザード認識を安全な計画と実行に翻訳する体系的な失敗を明らかにする。
論文参考訳（メタデータ） (2025-06-17T16:37:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。