論文の概要: MCPShield: A Security Cognition Layer for Adaptive Trust Calibration in Model Context Protocol Agents
- arxiv url: http://arxiv.org/abs/2602.14281v1
- Date: Sun, 15 Feb 2026 19:10:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:49.93406
- Title: MCPShield: A Security Cognition Layer for Adaptive Trust Calibration in Model Context Protocol Agents
- Title(参考訳): MCPShield:モデルコンテキストプロトコルエージェントにおけるアダプティブ信頼度校正のためのセキュリティ認知層
- Authors: Zhenhong Zhou, Yuanhe Zhang, Hongwei Cai, Moayad Aloqaily, Ouns Bouachir, Linsey Pang, Prakhar Mehrotra, Kun Wang, Qingsong Wen,
- Abstract要約: 我々は,MPPベースのツールを呼び出す際に,エージェントのセキュリティを保証するプラグインセキュリティ認知層としてMPPShieldを提案する。
我々の研究は、オープンエージェントエコシステムにおけるMPPベースのツール呼び出しに対して、実用的で堅牢なセキュリティ保護を提供します。
- 参考スコア(独自算出の注目度): 39.267334469481916
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Model Context Protocol (MCP) standardizes tool use for LLM-based agents and enable third-party servers. This openness introduces a security misalignment: agents implicitly trust tools exposed by potentially untrusted MCP servers. However, despite its excellent utility, existing agents typically offer limited validation for third-party MCP servers. As a result, agents remain vulnerable to MCP-based attacks that exploit the misalignment between agents and servers throughout the tool invocation lifecycle. In this paper, we propose MCPShield as a plug-in security cognition layer that mitigates this misalignment and ensures agent security when invoking MCP-based tools. Drawing inspiration from human experience-driven tool validation, MCPShield assists agent forms security cognition with metadata-guided probing before invocation. Our method constrains execution within controlled boundaries while cognizing runtime events, and subsequently updates security cognition by reasoning over historical traces after invocation, building on human post-use reflection on tool behavior. Experiments demonstrate that MCPShield exhibits strong generalization in defending against six novel MCP-based attack scenarios across six widely used agentic LLMs, while avoiding false positives on benign servers and incurring low deployment overhead. Overall, our work provides a practical and robust security safeguard for MCP-based tool invocation in open agent ecosystems.
- Abstract(参考訳): Model Context Protocol (MCP)は、LCMベースのエージェントのツール使用を標準化し、サードパーティサーバーを有効にする。
エージェントは、潜在的に信頼できないMPPサーバによって暴露されるツールを暗黙的に信頼する。
しかし、その優れたユーティリティにもかかわらず、既存のエージェントは通常、サードパーティのMSPサーバに対して限定的なバリデーションを提供する。
結果として、エージェントは、ツール呼び出しライフサイクルを通してエージェントとサーバ間のミスアライメントを悪用する、MPPベースの攻撃に対して脆弱なままである。
本稿では,この誤認識を軽減し,MPPベースのツールを呼び出す際のエージェントセキュリティを確保するプラグインセキュリティ認知層としてMPPShieldを提案する。
ヒューマンエクスペリエンス駆動のツール検証からインスピレーションを得たMSPShieldは、エージェントが起動前にメタデータを誘導した探索によってセキュリティ認知を形成する。
本手法は,実行時のイベントを認識しながら制御された境界内での実行を制限し,実行後の履歴を推論してセキュリティ認識を更新する。
実験により、MSPShieldは6つの広く使用されているエージェントLLMに対して6つの新しいMCPベースの攻撃シナリオを防御する上で、良質なサーバ上の偽陽性を回避し、デプロイオーバーヘッドの低減を図っている。
全体として、当社の作業はオープンエージェントエコシステムにおけるMPPベースのツール呼び出しに対して、実用的で堅牢なセキュリティ保護を提供します。
関連論文リスト
- ToolSafe: Enhancing Tool Invocation Safety of LLM-based agents via Proactive Step-level Guardrail and Feedback [53.2744585868162]
エージェントのデプロイには、ステップレベルのツールの実行動作をリアルタイムで監視することが不可欠だ。
LLMエージェントにおけるステップレベルツール起動安全検出のための新しいベンチマークであるTS-Benchを構築した。
次に,マルチタスク強化学習を用いたガードレールモデルTS-Guardを開発した。
論文 参考訳(メタデータ) (2026-01-15T07:54:32Z) - Towards Verifiably Safe Tool Use for LLM Agents [53.55621104327779]
大規模言語モデル(LLM)ベースのAIエージェントは、データソース、API、検索エンジン、コードサンドボックス、さらにはその他のエージェントなどのツールへのアクセスを可能にすることで、機能を拡張する。
LLMは意図しないツールインタラクションを起動し、機密データを漏洩したり、クリティカルレコードを上書きしたりするリスクを発生させる。
モデルベースセーフガードのようなリスクを軽減するための現在のアプローチは、エージェントの信頼性を高めるが、システムの安全性を保証することはできない。
論文 参考訳(メタデータ) (2026-01-12T21:31:38Z) - MCP-ITP: An Automated Framework for Implicit Tool Poisoning in MCP [22.063867518456743]
暗黙のツール中毒では、ツールメタデータに埋め込まれた悪意のある命令が、モデルコンテキストプロトコル(MCP)登録フェーズ中にエージェントコンテキストに注入される。
MCPエコシステム内での暗黙のツール中毒に対する最初の自動化および適応型フレームワークであるMPP-ITPを提案する。
論文 参考訳(メタデータ) (2026-01-12T10:28:46Z) - Automatic Red Teaming LLM-based Agents with Model Context Protocol Tools [47.32559576064343]
我々は、悪意のあるMPPツールを生成することで、LSMベースのエージェントのための自動レッドチーム化フレームワークであるAutoMalToolを提案する。
評価の結果,AutoMalToolは主要なLCMエージェントの動作を制御できる悪意のあるMPPツールを効果的に生成できることがわかった。
論文 参考訳(メタデータ) (2025-09-25T11:14:38Z) - Mind Your Server: A Systematic Study of Parasitic Toolchain Attacks on the MCP Ecosystem [13.95558554298296]
大規模言語モデル(LLM)は、モデルコンテキストプロトコル(MCP)を通じて、外部システムとますます統合される。
本稿では,MCP Unintended Privacy Disclosure (MCP-UPD) としてインスタンス化された新たな攻撃方法であるParasitic Toolchain Attacksを明らかにする。
悪意のあるロジックはツールチェーンに侵入し,寄生的取り込み,プライバシコレクション,プライバシ開示という3つのフェーズで展開する。
論文 参考訳(メタデータ) (2025-09-08T11:35:32Z) - MCPSecBench: A Systematic Security Benchmark and Playground for Testing Model Context Protocols [7.10162765778832]
本研究は,4つの主要な攻撃面にわたる17種類の攻撃タイプを同定し,MCPセキュリティの最初の系統分類を提示する。
MCPSecBenchは、プロンプトデータセット、MPPサーバ、MPPクライアント、アタックスクリプト、プロテクションメカニズムを統合した総合的なセキュリティベンチマークとグラウンドである。
論文 参考訳(メタデータ) (2025-08-17T11:49:16Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - MCP Safety Audit: LLMs with the Model Context Protocol Allow Major Security Exploits [0.0]
Model Context Protocol (MCP) は、大規模言語モデル(LLM)、データソース、エージェントツールへのAPI呼び出しを標準化するオープンプロトコルである。
現在のMPP設計はエンドユーザーに幅広いセキュリティリスクをもたらすことを示す。
任意のMPPサーバのセキュリティを評価するために,安全監査ツールであるMPPSafetyScannerを導入する。
論文 参考訳(メタデータ) (2025-04-02T21:46:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。