論文の概要: Servant, Stalker, Predator: How An Honest, Helpful, And Harmless (3H) Agent Unlocks Adversarial Skills
- arxiv url: http://arxiv.org/abs/2508.19500v1
- Date: Wed, 27 Aug 2025 01:11:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.46141
- Title: Servant, Stalker, Predator: How An Honest, Helpful, And Harmless (3H) Agent Unlocks Adversarial Skills
- Title(参考訳): Servant, Stalker, Predator: 敵のスキルを解き放つ、正直で、救世主で、無害なエージェント(3H)
- Authors: David Noever,
- Abstract要約: 本稿では,モデルコンテキストプロトコルに基づくエージェントシステムにおいて,新たな脆弱性クラスを特定し,解析する。
このアタックチェーンは、有害な緊急行動を生み出すために、個々に認可された個々のタスクをどのように編成するかを説明し、実証する。
- 参考スコア(独自算出の注目度): 3.0620527758972496
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper identifies and analyzes a novel vulnerability class in Model Context Protocol (MCP) based agent systems. The attack chain describes and demonstrates how benign, individually authorized tasks can be orchestrated to produce harmful emergent behaviors. Through systematic analysis using the MITRE ATLAS framework, we demonstrate how 95 agents tested with access to multiple services-including browser automation, financial analysis, location tracking, and code deployment-can chain legitimate operations into sophisticated attack sequences that extend beyond the security boundaries of any individual service. These red team exercises survey whether current MCP architectures lack cross-domain security measures necessary to detect or prevent a large category of compositional attacks. We present empirical evidence of specific attack chains that achieve targeted harm through service orchestration, including data exfiltration, financial manipulation, and infrastructure compromise. These findings reveal that the fundamental security assumption of service isolation fails when agents can coordinate actions across multiple domains, creating an exponential attack surface that grows with each additional capability. This research provides a barebones experimental framework that evaluate not whether agents can complete MCP benchmark tasks, but what happens when they complete them too well and optimize across multiple services in ways that violate human expectations and safety constraints. We propose three concrete experimental directions using the existing MCP benchmark suite.
- Abstract(参考訳): 本稿では,モデルコンテキストプロトコル(MCP)ベースのエージェントシステムにおいて,新たな脆弱性クラスを特定し,解析する。
このアタックチェーンは、有害な緊急行動を生み出すために、個々に認可された個々のタスクをどのように編成するかを説明し、実証する。
MITRE ATLASフレームワークを使用した体系的な分析を通じて、95人のエージェントが、ブラウザの自動化、財務分析、位置追跡、コードデプロイメントのチェーンを含む複数のサービスへのアクセスをテストし、個々のサービスのセキュリティ境界を越えて高度な攻撃シーケンスにどのように展開するかを実証する。
これらのレッドチームは、現在のMCPアーキテクチャが大規模な構成的攻撃の検出または防止に必要なクロスドメインセキュリティ対策を欠いているかどうかを調査している。
データ流出、金融操作、インフラの妥協など、サービスオーケストレーションを通じて、特定の攻撃チェーンを標的とする危害を経験的証拠として提示する。
これらの結果から,エージェントが複数のドメインにまたがるアクションをコーディネートできる場合に,サービスアイソレーションの基本的なセキュリティ仮定が失敗することが明らかとなった。
この研究は、エージェントがMCPベンチマークタスクを完了できるかどうかを評価するための素骨実験フレームワークを提供する。
既存のMPPベンチマークスイートを用いて,3つの具体的な実験方向を提案する。
関連論文リスト
- Benchmarking the Robustness of Agentic Systems to Adversarially-Induced Harms [31.01865239234458]
本稿では,エージェントから有害な作用を誘発する攻撃に対するエージェントシステムの堅牢性を評価する。
本稿では,エージェントシステムに対する害の新たな分類法と,新たなベンチマークであるBAD-ACTSを提案する。
BAD-ACTSは、異なるアプリケーション環境におけるエージェントシステムの4つの実装と、有害なアクションの188の高品質な例のデータセットで構成されている。
論文 参考訳(メタデータ) (2025-08-22T15:53:22Z) - Systematic Analysis of MCP Security [13.801464032236481]
Model Context Protocol(MCP)は、AIエージェントが外部ツールとシームレスに接続できるようにする普遍的な標準として登場した。
MCPはツール・ポジティング・アタック(TPA)のような重大な脆弱性を導入している。
MCPアタックライブラリ (MCPLIB) は, 4つの主要な分類の下で31の異なる攻撃手法を分類・実装する。
論文 参考訳(メタデータ) (2025-08-18T00:23:41Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - Towards Unifying Quantitative Security Benchmarking for Multi Agent Systems [0.0]
AIシステムの進化 自律エージェントが協力し、情報を共有し、プロトコルを開発することでタスクを委譲するマルチエージェントアーキテクチャをますます展開する。
そのようなリスクの1つはカスケードリスクである。あるエージェントの侵入はシステムを通してカスケードし、エージェント間の信頼を利用して他人を妥協させる。
ACI攻撃では、あるエージェントに悪意のあるインプットまたはツールエクスプロイトが注入され、そのアウトプットを信頼するエージェント間でカスケードの妥協とダウンストリーム効果が増幅される。
論文 参考訳(メタデータ) (2025-07-23T13:51:28Z) - SentinelAgent: Graph-based Anomaly Detection in Multi-Agent Systems [11.497269773189254]
大規模言語モデル(LLM)に基づくマルチエージェントシステム(MAS)に適したシステムレベルの異常検出フレームワークを提案する。
本稿では,エージェント間相互作用を動的実行グラフとしてモデル化し,ノード,エッジ,パスレベルでの意味的異常検出を可能にするグラフベースのフレームワークを提案する。
第2に,セキュリティポリシとコンテキスト推論に基づくMAS実行の監視,解析,介入を行うLLMによる監視エージェントである,プラグイン可能なSentinelAgentを導入する。
論文 参考訳(メタデータ) (2025-05-30T04:25:19Z) - The Hidden Dangers of Browsing AI Agents [0.0]
本稿では,複数のアーキテクチャ層にまたがるシステム的脆弱性に着目し,このようなエージェントの総合的なセキュリティ評価を行う。
本研究は,ブラウジングエージェントのエンド・ツー・エンドの脅威モデルについて概説し,実環境への展開を確保するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2025-05-19T13:10:29Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - DoomArena: A framework for Testing AI Agents Against Evolving Security Threats [84.94654617852322]
本稿では,AIエージェントのセキュリティ評価フレームワークであるDoomArenaを紹介する。
プラグインフレームワークであり、現実的なエージェントフレームワークと簡単に統合できる。
モジュールであり、エージェントがデプロイされる環境の詳細から攻撃の開発を分離する。
論文 参考訳(メタデータ) (2025-04-18T20:36:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。