論文の概要: MCP-RiskCue: Can LLM infer risk information from MCP server System Logs?
- arxiv url: http://arxiv.org/abs/2511.05867v1
- Date: Sat, 08 Nov 2025 05:52:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.625761
- Title: MCP-RiskCue: Can LLM infer risk information from MCP server System Logs?
- Title(参考訳): MCP-RiskCue: LLMはMPPサーバシステムログからリスク情報を推測できますか?
- Authors: Jiayi Fu, Qiyao Sun,
- Abstract要約: システムログからセキュリティリスクを識別する大規模言語モデルの能力を評価するための,最初の総合ベンチマークを示す。
MCPサーバのリスクの9つのカテゴリを定義し,10の最先端LCMを用いて1,800の合成システムログを生成する。
実験では、小さなモデルではリスクの高いシステムログの検出に失敗することが多く、偽陽性につながることが判明した。
- 参考スコア(独自算出の注目度): 3.4468299705073133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) demonstrate strong capabilities in solving complex tasks when integrated with external tools. The Model Context Protocol (MCP) has become a standard interface for enabling such tool-based interactions. However, these interactions introduce substantial security concerns, particularly when the MCP server is compromised or untrustworthy. While prior benchmarks primarily focus on prompt injection attacks or analyze the vulnerabilities of LLM MCP interaction trajectories, limited attention has been given to the underlying system logs associated with malicious MCP servers. To address this gap, we present the first synthetic benchmark for evaluating LLMs ability to identify security risks from system logs. We define nine categories of MCP server risks and generate 1,800 synthetic system logs using ten state-of-the-art LLMs. These logs are embedded in the return values of 243 curated MCP servers, yielding a dataset of 2,421 chat histories for training and 471 queries for evaluation. Our pilot experiments reveal that smaller models often fail to detect risky system logs, leading to high false negatives. While models trained with supervised fine-tuning (SFT) tend to over-flag benign logs, resulting in elevated false positives, Reinforcement Learning from Verifiable Reward (RLVR) offers a better precision-recall balance. In particular, after training with Group Relative Policy Optimization (GRPO), Llama3.1-8B-Instruct achieves 83% accuracy, surpassing the best-performing large remote model by 9 percentage points. Fine-grained, per-category analysis further underscores the effectiveness of reinforcement learning in enhancing LLM safety within the MCP framework. Code and data are available at: https://github.com/PorUna-byte/MCP-Guard/tree/master
- Abstract(参考訳): 大規模言語モデル(LLM)は、外部ツールとの統合時に複雑なタスクを解決する強力な能力を示す。
Model Context Protocol (MCP) はそのようなツールベースのインタラクションを実現するための標準インターフェースになっている。
しかし、これらのインタラクションは、特にMPPサーバが侵害されたり、信頼できない場合に、重大なセキュリティ上の懸念をもたらす。
以前のベンチマークでは、主にLSM MCPインタラクショントラジェクトリのインジェクション攻撃や脆弱性の分析に重点を置いていたが、悪意のあるMPPサーバに関連するシステムログには限定的な注意が向けられている。
このギャップに対処するために、システムログからセキュリティリスクを識別するLSMの能力を評価するための最初の総合ベンチマークを示す。
MCPサーバのリスクの9つのカテゴリを定義し,10の最先端LCMを用いて1,800の合成システムログを生成する。
これらのログは243のキュレートされたMPPサーバの戻り値に埋め込まれ、トレーニング用の2,421のチャット履歴と評価用の471のクエリのデータセットを生成する。
私たちの実験では、小さなモデルではリスクの高いシステムログの検出に失敗することが多く、偽陰性が高くなることがわかりました。
教師付き微調整(SFT)で訓練されたモデルは、良性ログをオーバーフラッグする傾向があり、結果として偽陽性が増大するが、Reinforcement Learning from Verifiable Reward(RLVR)はより正確なリコールバランスを提供する。
特に、GRPO(Group Relative Policy Optimization)でのトレーニングの後、Llama3.1-8B-Instructは83%の精度を達成し、最高のパフォーマンスの遠隔モデルを9ポイント上回った。
MCP フレームワークにおける LLM の安全性向上における強化学習の有効性をさらに強調する。
コードとデータは、https://github.com/PorUna-byte/MCP-Guard/tree/masterで入手できる。
関連論文リスト
- MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers [86.00932417210477]
MCP-Universeは,実世界のMPPサーバとのインタラクションを通じて,現実的かつ困難なタスクにおいてLLMを評価するために設計された,初めての総合ベンチマークである。
私たちのベンチマークでは、ロケーションナビゲーション、リポジトリ管理、財務分析、3Dデザイン、ブラウザ自動化、Web検索という、11の異なるMSPサーバにまたがる6つのコアドメインを網羅しています。
GPT-5 (43.72%) やGrok-4 (33.33%) やClaude-4.0-Sonnet (29.44%) のようなSOTAモデルでさえ、大幅な性能制限がある。
論文 参考訳(メタデータ) (2025-08-20T13:28:58Z) - MCPSecBench: A Systematic Security Benchmark and Playground for Testing Model Context Protocols [7.10162765778832]
本研究は,4つの主要な攻撃面にわたる17種類の攻撃タイプを同定し,MCPセキュリティの最初の系統分類を提示する。
MCPSecBenchは、プロンプトデータセット、MPPサーバ、MPPクライアント、アタックスクリプト、プロテクションメカニズムを統合した総合的なセキュリティベンチマークとグラウンドである。
論文 参考訳(メタデータ) (2025-08-17T11:49:16Z) - LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools? [50.60770039016318]
モデルコンテキストプロトコル(MCP)エージェントをベンチマークする最初の総合ベンチマークであるLiveMCPBenchを紹介する。
LiveMCPBenchは、MPPエコシステムに根ざした95の現実世界のタスクで構成されている。
評価は10の先行モデルを対象としており、最高の性能のモデルが78.95%の成功率に達した。
論文 参考訳(メタデータ) (2025-08-03T14:36:42Z) - We Should Identify and Mitigate Third-Party Safety Risks in MCP-Powered Agent Systems [48.345884334050965]
MCPが導入した新たな安全リスク問題に細心の注意を払うため, LLMの安全に関する研究コミュニティを提唱する。
MCPによるエージェントシステムの安全性のリスクは本当の脅威であり、その防御は自明なものではないことを実証するために、一連の実験を行った。
論文 参考訳(メタデータ) (2025-06-16T16:24:31Z) - Model Context Protocol (MCP) at First Glance: Studying the Security and Maintainability of MCP Servers [16.794115541448758]
Anthropicは2024年後半にこのツールエコシステムを標準化するためにModel Context Protocol (MCP)を導入した。
採用にもかかわらず、MPPのAI駆動の非決定論的制御フローは、持続可能性、セキュリティ、保守性に対する新たなリスクをもたらす。
我々は1,899のオープンソースMPPサーバを評価し,その健全性,セキュリティ,保守性を評価した。
論文 参考訳(メタデータ) (2025-06-16T14:26:37Z) - MCIP: Protecting MCP Safety via Model Contextual Integrity Protocol [47.98229326363512]
本稿では,モデルコンテキストプロトコルの安全性を高めるための新しいフレームワークを提案する。
MAESTRO フレームワークをベースとして,まず MCP に欠落する安全機構を解析する。
次に、MPPシナリオで観察されるさまざまな安全でない振る舞いをキャプチャする、きめ細かい分類法を開発する。
論文 参考訳(メタデータ) (2025-05-20T16:41:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。