論文の概要: MCP Security Bench (MSB): Benchmarking Attacks Against Model Context Protocol in LLM Agents
- arxiv url: http://arxiv.org/abs/2510.15994v1
- Date: Tue, 14 Oct 2025 07:36:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.75909
- Title: MCP Security Bench (MSB): Benchmarking Attacks Against Model Context Protocol in LLM Agents
- Title(参考訳): MCP Security Bench (MSB): LLMエージェントにおけるモデルコンテキストプロトコルに対するベンチマーク攻撃
- Authors: Dongsen Zhang, Zekun Li, Xu Luo, Xuannan Liu, Peipei Li, Wenjun Xu,
- Abstract要約: Model Context Protocol(MCP)は、大規模な言語モデル(LLM)エージェントが外部ツールを発見し、記述し、呼び出す方法を標準化する。
我々は,MSB (MCP Security Benchmark) について述べる。MSB (MCP Security Benchmark) は,LCM エージェントが MCP 固有の攻撃にどの程度抵抗するかを測定する最初のエンドツーエンド評価スイートである。
- 参考スコア(独自算出の注目度): 14.507665159809138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Model Context Protocol (MCP) standardizes how large language model (LLM) agents discover, describe, and call external tools. While MCP unlocks broad interoperability, it also enlarges the attack surface by making tools first-class, composable objects with natural-language metadata, and standardized I/O. We present MSB (MCP Security Benchmark), the first end-to-end evaluation suite that systematically measures how well LLM agents resist MCP-specific attacks throughout the full tool-use pipeline: task planning, tool invocation, and response handling. MSB contributes: (1) a taxonomy of 12 attacks including name-collision, preference manipulation, prompt injections embedded in tool descriptions, out-of-scope parameter requests, user-impersonating responses, false-error escalation, tool-transfer, retrieval injection, and mixed attacks; (2) an evaluation harness that executes attacks by running real tools (both benign and malicious) via MCP rather than simulation; and (3) a robustness metric that quantifies the trade-off between security and performance: Net Resilient Performance (NRP). We evaluate nine popular LLM agents across 10 domains and 400+ tools, producing 2,000 attack instances. Results reveal the effectiveness of attacks against each stage of MCP. Models with stronger performance are more vulnerable to attacks due to their outstanding tool calling and instruction following capabilities. MSB provides a practical baseline for researchers and practitioners to study, compare, and harden MCP agents.
- Abstract(参考訳): Model Context Protocol(MCP)は、大規模な言語モデル(LLM)エージェントが外部ツールを発見し、記述し、呼び出す方法を標準化する。
MCPは幅広い相互運用性を解放する一方で、ツールファーストクラス、自然言語メタデータを備えた構成可能なオブジェクト、標準化されたI/Oによって攻撃面を拡大する。
提案するMSB(MCP Security Benchmark)は,LCMエージェントがMCP固有の攻撃に対して,タスク計画,ツール実行,応答処理など,完全なツール使用パイプライン全体にわたって,システム的に抵抗性を評価する最初のエンドツーエンド評価スイートである。
MSBは,(1)名前照合,選好操作,プロンプトインジェクションをツール記述に組み込んだ12件の攻撃の分類,(2)セキュリティとパフォーマンスのトレードオフを定量化する強靭性指標:Net Resilient Performance(NRP)。
10のドメインと400以上のツールにまたがる9つのLLMエージェントを評価し、2000の攻撃インスタンスを生成した。
その結果,MPPの各段階に対する攻撃の有効性が明らかとなった。
強力なパフォーマンスを持つモデルは、優れたツール呼び出しと命令従う能力のため、攻撃に対してより脆弱である。
MSBは、研究者や実践者がMPPエージェントを研究、比較、硬化するための実践的なベースラインを提供する。
関連論文リスト
- MCPTox: A Benchmark for Tool Poisoning Attack on Real-World MCP Servers [12.669529656631937]
MCPToxは,現実的なMCP設定において,ツールポジショニングに対するエージェントの堅牢性を評価する最初のベンチマークである。
MCPToxは、数ショットの学習によって1312の悪意のあるテストケースの包括的なスイートを生成し、潜在的なリスクの10のカテゴリをカバーする。
評価の結果,o1-miniで72.8%の攻撃成功率を達成したツールポイジングの脆弱性が広く報告されている。
論文 参考訳(メタデータ) (2025-08-19T10:12:35Z) - Systematic Analysis of MCP Security [13.801464032236481]
Model Context Protocol(MCP)は、AIエージェントが外部ツールとシームレスに接続できるようにする普遍的な標準として登場した。
MCPはツール・ポジティング・アタック(TPA)のような重大な脆弱性を導入している。
MCPアタックライブラリ (MCPLIB) は, 4つの主要な分類の下で31の異なる攻撃手法を分類・実装する。
論文 参考訳(メタデータ) (2025-08-18T00:23:41Z) - MCPSecBench: A Systematic Security Benchmark and Playground for Testing Model Context Protocols [7.10162765778832]
本研究は,4つの主要な攻撃面にわたる17種類の攻撃タイプを同定し,MCPセキュリティの最初の系統分類を提示する。
MCPSecBenchは、プロンプトデータセット、MPPサーバ、MPPクライアント、アタックスクリプト、プロテクションメカニズムを統合した総合的なセキュリティベンチマークとグラウンドである。
論文 参考訳(メタデータ) (2025-08-17T11:49:16Z) - Attractive Metadata Attack: Inducing LLM Agents to Invoke Malicious Tools [10.086284534400658]
大規模言語モデル(LLM)エージェントは、外部ツールを活用することで複雑な推論と意思決定において顕著な能力を示した。
我々はこれを、悪意のあるツールをLLMエージェントによって優先的に選択できる、新しくてステルスな脅威サーフェスとして認識する。
我々は,非常に魅力的だが構文的かつ意味論的に有効なツールメタデータを生成するブラックボックス・イン・コンテキスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-04T06:38:59Z) - MCPEval: Automatic MCP-based Deep Evaluation for AI Agent Models [76.72220653705679]
我々は、エンドツーエンドタスク生成とインテリジェントエージェントの深い評価を自動化するオープンソースのフレームワークであるMCPEvalを紹介する。
MCPEvalはメトリクスを標準化し、ネイティブエージェントツールとシームレスに統合し、評価パイプラインを構築するための手作業を排除する。
実世界の5つのドメインにまたがる実証的な結果から、ニュアンスのある、ドメイン固有のパフォーマンスを明らかにする効果が示された。
論文 参考訳(メタデータ) (2025-07-17T05:46:27Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - MELON: Provable Defense Against Indirect Prompt Injection Attacks in AI Agents [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱であり、ツール検索情報に埋め込まれた悪意のあるタスクはエージェントをリダイレクトして不正なアクションを取ることができる。
マスク機能によって修正されたマスク付きユーザでエージェントの軌道を再実行することで攻撃を検知する新しいIPIディフェンスであるMELONを提案する。
論文 参考訳(メタデータ) (2025-02-07T18:57:49Z) - Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents [32.62654499260479]
我々は,LSMベースのエージェントの攻撃と防御を形式化し,ベンチマークし,評価するフレームワークであるAgen Security Bench (ASB)を紹介した。
ASBをベースとして、インジェクション攻撃10件、メモリ中毒攻撃、新しいPlan-of-Thoughtバックドア攻撃4件、混合攻撃11件をベンチマークした。
ベンチマークの結果,システムプロンプト,ユーザプロンプト処理,ツール使用量,メモリ検索など,エージェント操作のさまざまな段階における重大な脆弱性が明らかになった。
論文 参考訳(メタデータ) (2024-10-03T16:30:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。