論文の概要: ShieldNet: Network-Level Guardrails against Emerging Supply-Chain Injections in Agentic Systems
- arxiv url: http://arxiv.org/abs/2604.04426v1
- Date: Mon, 06 Apr 2026 05:15:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.096874
- Title: ShieldNet: Network-Level Guardrails against Emerging Supply-Chain Injections in Agentic Systems
- Title(参考訳): ShieldNet:エージェントシステムにおける新たなサプライチェーンインジェクションに対するネットワークレベルガードレール
- Authors: Zhuowen Yuan, Zhaorun Chen, Zhen Xiang, Nathaniel D. Bastian, Seyyed Hadi Hashemi, Chaowei Xiao, Wenbo Guo, Bo Li,
- Abstract要約: 悪意のある行動は、一見良心的なツールに埋め込まれ、エージェントの実行を静かにハイジャックしたり、機密データをリークしたり、無許可のアクションをトリガーしたりする。
影響は拡大しているが、このような脅威を評価するための包括的なベンチマークは今のところ存在しない。
実ネットワークの相互作用を観測してサプライチェーン中毒を検出するネットワークレベルのガードレールフレームワークであるShieldNetを提案する。
- 参考スコア(独自算出の注目度): 56.613157564882925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing research on LLM agent security mainly focuses on prompt injection and unsafe input/output behaviors. However, as agents increasingly rely on third-party tools and MCP servers, a new class of supply-chain threats has emerged, where malicious behaviors are embedded in seemingly benign tools, silently hijacking agent execution, leaking sensitive data, or triggering unauthorized actions. Despite their growing impact, there is currently no comprehensive benchmark for evaluating such threats. To bridge this gap, we introduce SC-Inject-Bench, a large-scale benchmark comprising over 10,000 malicious MCP tools grounded in a taxonomy of 25+ attack types derived from MITRE ATT&CK targeting supply-chain threats. We observe that existing MCP scanners and semantic guardrails perform poorly on this benchmark. Motivated by this finding, we propose ShieldNet, a network-level guardrail framework that detects supply-chain poisoning by observing real network interactions rather than surface-level tool traces. ShieldNet integrates a man-in-the-middle (MITM) proxy and an event extractor to identify critical network behaviors, which are then processed by a lightweight classifier for attack detection. Extensive experiments show that ShieldNet achieves strong detection performance (up to 0.995 F-1 with only 0.8% false positives) while introducing little runtime overhead, substantially outperforming existing MCP scanners and LLM-based guardrails.
- Abstract(参考訳): LLMエージェントのセキュリティに関する既存の研究は、主にインジェクションと安全でないインプット/アウトプットの振る舞いに焦点を当てている。
しかし、エージェントはますますサードパーティのツールやMPPサーバーに依存しているため、新しい種類のサプライチェーンの脅威が出現している。
影響は拡大しているが、このような脅威を評価するための包括的なベンチマークは今のところ存在しない。
SC-Inject-Benchは、サプライチェーンの脅威をターゲットとした、MITRE ATT&CKから派生した25以上の攻撃型の分類に根ざした1万以上の悪意あるMCPツールからなる大規模なベンチマークである。
既存のMSPスキャナとセマンティックガードレールは,このベンチマークでは性能が良くない。
この発見に触発されたShieldNetは,サーフェスレベルのツールトレースではなく,実際のネットワークインタラクションを観察することで,サプライチェーン中毒を検出するネットワークレベルのガードレールフレームワークである。
ShieldNetは、man-in-the-middle(MITM)プロキシとイベント抽出器を統合して、重要なネットワークの振る舞いを識別する。
大規模な実験の結果、ShieldNetは強い検出性能(0.995 F-1まで、わずか0.8%の偽陽性)を達成し、実行時のオーバーヘッドは少なく、既存のMSPスキャナやLLMベースのガードレールよりも大幅に優れていた。
関連論文リスト
- T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search [49.99459363244884]
提案手法は, 対向的プロンプトの発見を導くために, 実行トラジェクトリを利用するトラジェクトリ対応の進化探索手法であるT-MAPを提案する。
本手法は,安全ガードレールをバイパスするだけでなく,実際のツールインタラクションによる有害な目標を確実に実現するための攻撃の自動生成を可能にする。
論文 参考訳(メタデータ) (2026-03-21T12:33:34Z) - MCPShield: A Security Cognition Layer for Adaptive Trust Calibration in Model Context Protocol Agents [39.267334469481916]
我々は,MPPベースのツールを呼び出す際に,エージェントのセキュリティを保証するプラグインセキュリティ認知層としてMPPShieldを提案する。
我々の研究は、オープンエージェントエコシステムにおけるMPPベースのツール呼び出しに対して、実用的で堅牢なセキュリティ保護を提供します。
論文 参考訳(メタデータ) (2026-02-15T19:10:00Z) - CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents [60.98294016925157]
AIエージェントは、悪意のあるコンテンツがエージェントの行動をハイジャックして認証情報を盗んだり、金銭的損失を引き起こすような、インジェクション攻撃に弱い。
CUAのためのシングルショットプランニングでは、信頼できるプランナーが、潜在的に悪意のあるコンテンツを観察する前に、条件付きブランチで完全な実行グラフを生成する。
このアーキテクチャ分離は命令インジェクションを効果的に防止するが、ブランチステアリング攻撃を防ぐには追加の対策が必要であることを示す。
論文 参考訳(メタデータ) (2026-01-14T23:06:35Z) - Endpoint Security Agent: A Comprehensive Approach to Real-time System Monitoring and Threat Detection [0.3266916057202441]
本稿では,“Endpoint Security Agent: A Comprehensive Approach to Real-time System Monitoring and Threat Detection”を提案する。
良性および悪意のあるアクティビティのラベル付きデータセットに基づいてトレーニングされた機械学習ベースの検出エンジンは、最小限の偽陽性で正確な脅威識別を可能にする。
このシステムには、アラートと法医学的分析のための集中インターフェイスが含まれている。
論文 参考訳(メタデータ) (2025-11-11T15:28:54Z) - Proactive DDoS Detection and Mitigation in Decentralized Software-Defined Networking via Port-Level Monitoring and Zero-Training Large Language Models [3.6260109722491465]
Software-Defined Networking (cSDN)は、柔軟でプログラム可能なネットワーク制御を提供するが、スケーラビリティと信頼性の問題に悩まされている。
分散化されたSDN(dSDN) 複数のローカルコントローラ間で制御を分散することで、これらの懸念を緩和する。
このアーキテクチャは、Denial-of-Service(DDoS)攻撃に対して非常に脆弱である。
本稿では,dSDN環境に適した新しい検出・緩和フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-01T08:57:29Z) - Malice in Agentland: Down the Rabbit Hole of Backdoors in the AI Supply Chain [82.98626829232899]
自分自身のインタラクションからのデータに対する微調整のAIエージェントは、AIサプライチェーン内の重要なセキュリティ脆弱性を導入している。
敵は容易にデータ収集パイプラインに毒を盛り、検出しにくいバックドアを埋め込むことができる。
論文 参考訳(メタデータ) (2025-10-03T12:47:21Z) - MCPTox: A Benchmark for Tool Poisoning Attack on Real-World MCP Servers [12.669529656631937]
MCPToxは,現実的なMCP設定において,ツールポジショニングに対するエージェントの堅牢性を評価する最初のベンチマークである。
MCPToxは、数ショットの学習によって1312の悪意のあるテストケースの包括的なスイートを生成し、潜在的なリスクの10のカテゴリをカバーする。
評価の結果,o1-miniで72.8%の攻撃成功率を達成したツールポイジングの脆弱性が広く報告されている。
論文 参考訳(メタデータ) (2025-08-19T10:12:35Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。