論文の概要: MCP-SafetyBench: A Benchmark for Safety Evaluation of Large Language Models with Real-World MCP Servers
- arxiv url: http://arxiv.org/abs/2512.15163v1
- Date: Wed, 17 Dec 2025 08:00:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.892752
- Title: MCP-SafetyBench: A Benchmark for Safety Evaluation of Large Language Models with Real-World MCP Servers
- Title(参考訳): MCP-SafetyBench: リアルタイムMPPサーバを用いた大規模言語モデルの安全性評価ベンチマーク
- Authors: Xuanjun Zong, Zhiqi Shen, Lei Wang, Yunshi Lan, Chao Yang,
- Abstract要約: 我々は,実際のMPPサーバ上に構築された総合ベンチマークであるMPP-SafetyBenchを紹介する。
サーバ、ホスト、ユーザサイドにまたがる20のMPP攻撃タイプを統一した分類を組み込んでいる。
MCP-SafetyBench を用いて、主要なオープンソース LLM とクローズドソース LLM を体系的に評価する。
- 参考スコア(独自算出の注目度): 17.96465932881902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are evolving into agentic systems that reason, plan, and operate external tools. The Model Context Protocol (MCP) is a key enabler of this transition, offering a standardized interface for connecting LLMs with heterogeneous tools and services. Yet MCP's openness and multi-server workflows introduce new safety risks that existing benchmarks fail to capture, as they focus on isolated attacks or lack real-world coverage. We present MCP-SafetyBench, a comprehensive benchmark built on real MCP servers that supports realistic multi-turn evaluation across five domains: browser automation, financial analysis, location navigation, repository management, and web search. It incorporates a unified taxonomy of 20 MCP attack types spanning server, host, and user sides, and includes tasks requiring multi-step reasoning and cross-server coordination under uncertainty. Using MCP-SafetyBench, we systematically evaluate leading open- and closed-source LLMs, revealing large disparities in safety performance and escalating vulnerabilities as task horizons and server interactions grow. Our results highlight the urgent need for stronger defenses and establish MCP-SafetyBench as a foundation for diagnosing and mitigating safety risks in real-world MCP deployments.
- Abstract(参考訳): 大規模言語モデル(LLM)は、外部ツールを推論、計画、運用するエージェントシステムへと進化している。
Model Context Protocol(MCP)は、LLMを異種ツールやサービスと接続するための標準化されたインターフェースを提供する、この移行の鍵となる実装である。
しかし、MPPのオープン性とマルチサーバワークフローは、既存のベンチマークが捕捉できない新たな安全性リスクをもたらしている。
MCP-SafetyBenchは,ブラウザの自動化,財務分析,ロケーションナビゲーション,リポジトリ管理,Web検索という5つの領域にわたる現実的なマルチターン評価をサポートする,実際のMPPサーバ上に構築された総合ベンチマークである。
サーバ、ホスト、ユーザサイドにまたがる20のMPP攻撃タイプを統一した分類を組み、不確実性の下で複数ステップの推論とサーバ間の調整を必要とするタスクを含む。
MCP-SafetyBench を用いて、主要なオープンソース LLM とクローズドソース LLM を体系的に評価し、安全性能の大きな相違を明らかにし、タスクの地平線やサーバ間の相互作用が増大するにつれて脆弱性をエスカレーションする。
本研究は,より強力な防衛の必要性を浮き彫りにして,現実のMPP展開における安全リスクの診断・緩和の基盤としてMPP-SafetyBenchを確立することを目的としたものである。
関連論文リスト
- MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers [86.00932417210477]
MCP-Universeは,実世界のMPPサーバとのインタラクションを通じて,現実的かつ困難なタスクにおいてLLMを評価するために設計された,初めての総合ベンチマークである。
私たちのベンチマークでは、ロケーションナビゲーション、リポジトリ管理、財務分析、3Dデザイン、ブラウザ自動化、Web検索という、11の異なるMSPサーバにまたがる6つのコアドメインを網羅しています。
GPT-5 (43.72%) やGrok-4 (33.33%) やClaude-4.0-Sonnet (29.44%) のようなSOTAモデルでさえ、大幅な性能制限がある。
論文 参考訳(メタデータ) (2025-08-20T13:28:58Z) - MCPSecBench: A Systematic Security Benchmark and Playground for Testing Model Context Protocols [7.10162765778832]
本研究は,4つの主要な攻撃面にわたる17種類の攻撃タイプを同定し,MCPセキュリティの最初の系統分類を提示する。
MCPSecBenchは、プロンプトデータセット、MPPサーバ、MPPクライアント、アタックスクリプト、プロテクションメカニズムを統合した総合的なセキュリティベンチマークとグラウンドである。
論文 参考訳(メタデータ) (2025-08-17T11:49:16Z) - LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools? [50.60770039016318]
モデルコンテキストプロトコル(MCP)エージェントをベンチマークする最初の総合ベンチマークであるLiveMCPBenchを紹介する。
LiveMCPBenchは、MPPエコシステムに根ざした95の現実世界のタスクで構成されている。
評価は10の先行モデルを対象としており、最高の性能のモデルが78.95%の成功率に達した。
論文 参考訳(メタデータ) (2025-08-03T14:36:42Z) - We Should Identify and Mitigate Third-Party Safety Risks in MCP-Powered Agent Systems [48.345884334050965]
MCPが導入した新たな安全リスク問題に細心の注意を払うため, LLMの安全に関する研究コミュニティを提唱する。
MCPによるエージェントシステムの安全性のリスクは本当の脅威であり、その防御は自明なものではないことを実証するために、一連の実験を行った。
論文 参考訳(メタデータ) (2025-06-16T16:24:31Z) - MCIP: Protecting MCP Safety via Model Contextual Integrity Protocol [47.98229326363512]
本稿では,モデルコンテキストプロトコルの安全性を高めるための新しいフレームワークを提案する。
MAESTRO フレームワークをベースとして,まず MCP に欠落する安全機構を解析する。
次に、MPPシナリオで観察されるさまざまな安全でない振る舞いをキャプチャする、きめ細かい分類法を開発する。
論文 参考訳(メタデータ) (2025-05-20T16:41:45Z) - MCP Guardian: A Security-First Layer for Safeguarding MCP-Based AI System [0.0]
MCPガーディアンは、認証、レート制限、ロギング、トレース、Web Application Firewall(WAF)スキャンによるMPPベースの通信を強化するフレームワークである。
弊社のアプローチは、AIアシスタントのためのセキュアでスケーラブルなデータアクセスを促進する。
論文 参考訳(メタデータ) (2025-04-17T08:49:10Z) - MCP Safety Audit: LLMs with the Model Context Protocol Allow Major Security Exploits [0.0]
Model Context Protocol (MCP) は、大規模言語モデル(LLM)、データソース、エージェントツールへのAPI呼び出しを標準化するオープンプロトコルである。
現在のMPP設計はエンドユーザーに幅広いセキュリティリスクをもたらすことを示す。
任意のMPPサーバのセキュリティを評価するために,安全監査ツールであるMPPSafetyScannerを導入する。
論文 参考訳(メタデータ) (2025-04-02T21:46:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。