論文の概要: Quantifying Conversation Drift in MCP via Latent Polytope
- arxiv url: http://arxiv.org/abs/2508.06418v1
- Date: Fri, 08 Aug 2025 16:05:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.294619
- Title: Quantifying Conversation Drift in MCP via Latent Polytope
- Title(参考訳): 潜在ポリトープを用いたMPPの会話ドリフトの定量化
- Authors: Haoran Shi, Hongwei Yao, Shuo Shao, Shaopeng Jiao, Ziqi Peng, Zhan Qin, Cong Wang,
- Abstract要約: Model Context Protocol(MCP)は、外部ツールを統合することで、大きな言語モデル(LLM)を強化する。
逆向きに作られたコンテンツは、ツール中毒や間接的なプロンプト注射を誘発し、会話のハイジャック、誤情報伝播、データ流出につながる。
本稿では,会話のドリフト,空間軌跡の偏差を,対向的外部知識により検出し,定量化するフレームワークであるSecMCPを提案する。
- 参考スコア(独自算出の注目度): 12.004235167472238
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Model Context Protocol (MCP) enhances large language models (LLMs) by integrating external tools, enabling dynamic aggregation of real-time data to improve task execution. However, its non-isolated execution context introduces critical security and privacy risks. In particular, adversarially crafted content can induce tool poisoning or indirect prompt injection, leading to conversation hijacking, misinformation propagation, or data exfiltration. Existing defenses, such as rule-based filters or LLM-driven detection, remain inadequate due to their reliance on static signatures, computational inefficiency, and inability to quantify conversational hijacking. To address these limitations, we propose SecMCP, a secure framework that detects and quantifies conversation drift, deviations in latent space trajectories induced by adversarial external knowledge. By modeling LLM activation vectors within a latent polytope space, SecMCP identifies anomalous shifts in conversational dynamics, enabling proactive detection of hijacking, misleading, and data exfiltration. We evaluate SecMCP on three state-of-the-art LLMs (Llama3, Vicuna, Mistral) across benchmark datasets (MS MARCO, HotpotQA, FinQA), demonstrating robust detection with AUROC scores exceeding 0.915 while maintaining system usability. Our contributions include a systematic categorization of MCP security threats, a novel latent polytope-based methodology for quantifying conversation drift, and empirical validation of SecMCP's efficacy.
- Abstract(参考訳): Model Context Protocol(MCP)は、外部ツールを統合することで、大規模言語モデル(LLM)を強化し、リアルタイムデータの動的集約を可能にし、タスク実行を改善する。
しかし、その非分離実行コンテキストは、セキュリティとプライバシの重大なリスクをもたらす。
特に、敵対的に制作されたコンテンツは、ツール中毒や間接的なプロンプト注射を誘発し、会話のハイジャック、誤情報伝播、データ流出につながる。
ルールベースのフィルタやLLM駆動検出のような既存の防御は、静的シグネチャへの依存、計算の非効率性、会話のハイジャックの定量化ができないため、依然として不十分である。
このような制約に対処するため, SecMCPは, 対向的外的知識によって引き起こされる潜在空間軌道のずれを検知し, 定量化するセキュアなフレームワークである。
LLMアクティベーションベクトルを潜在ポリトープ空間内でモデル化することにより、SecMCPは会話力学における異常なシフトを識別し、ハイジャック、ミスリード、データの流出を積極的に検出することができる。
我々は、ベンチマークデータセット(MS MARCO、HotpotQA、FinQA)の3つの最先端LCM(Llama3、Vicuna、Mistral)上でSecMCPを評価し、システム使用性を維持しながらAUROCスコアの0.915を超える堅牢な検出を実証した。
我々の貢献には、MCPのセキュリティ脅威の体系的な分類、会話の漂流を定量化するための新しい潜在ポリトープベースの方法論、SecMCPの有効性の実証的検証が含まれる。
関連論文リスト
- NeuroFilter: Privacy Guardrails for Conversational LLM Agents [50.75206727081996]
本研究は,エージェント型大規模言語モデル(LLM)のプライバシを強制する際の計算上の課題に対処する。
NeuroFilterは、標準違反をモデルのアクティベーション空間における単純な方向にマッピングすることで、コンテキスト整合性を運用するガードレールフレームワークである。
7Bから70Bパラメータのモデルをカバーする15万以上のインタラクションに対する包括的な評価は、NeuroFilterの強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2026-01-21T05:16:50Z) - Zero-Shot Embedding Drift Detection: A Lightweight Defense Against Prompt Injections in LLMs [2.2448294058653455]
敵は電子メールやユーザー生成コンテンツなどの間接的な入力チャネルを利用してアライメント保護を回避する。
本稿では,Zero-Shot Embedding Drift Detection (ZEDD)を提案する。
ZEDDは、モデル内部へのアクセス、アタックタイプの事前知識、タスク固有の再トレーニングを必要とせずに動作する。
論文 参考訳(メタデータ) (2026-01-18T11:33:35Z) - STaR: Sensitive Trajectory Regulation for Unlearning in Large Reasoning Models [12.133996629992318]
本稿では、推論プロセスを通じて堅牢なプライバシ保護を実現するパラメータフリー・推論時アンラーニングフレームワークを提案する。
R-TOFUベンチマークの実験は、STaRが最小限のユーティリティ損失で包括的で安定したアンラーニングを実現することを示した。
論文 参考訳(メタデータ) (2026-01-14T08:35:23Z) - A high-capacity linguistic steganography based on entropy-driven rank-token mapping [81.29800498695899]
言語ステガノグラフィーは、秘密のメッセージを無害なテキストに埋め込むことによって、秘密のコミュニケーションを可能にする。
従来の修正ベースの手法は検出可能な異常を導入し、検索ベースの戦略は埋め込み能力の低下に悩まされている。
本稿では、ランクベース適応符号化と文脈認識の圧縮を正規化エントロピーと統合したRTMStegaというエントロピー駆動のフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-27T06:02:47Z) - DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models [55.30555646945055]
テキスト・ツー・イメージ(T2I)モデルはセマンティック・リークに対して脆弱である。
DeLeakerは、モデルのアテンションマップに直接介入することで、漏洩を緩和する軽量なアプローチである。
SLIMはセマンティックリークに特化した最初のデータセットである。
論文 参考訳(メタデータ) (2025-10-16T17:39:21Z) - MCP-Guard: A Defense Framework for Model Context Protocol Integrity in Large Language Model Applications [21.70488724213541]
大規模言語モデルと外部ツールの統合は、重大なセキュリティ脆弱性をもたらす。
LLM-toolインタラクション用に設計されたロバストな層状防御アーキテクチャであるMPP-Guardを提案する。
MCP-AttackBenchも紹介します。
論文 参考訳(メタデータ) (2025-08-14T18:00:25Z) - Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - Exploring LLM Reasoning Through Controlled Prompt Variations [0.9217021281095907]
我々は,4種類の急激な摂動に直面する場合,最先端モデルが論理的整合性と正当性を維持するかを評価する。
13個のオープンソースおよびクローズドソース LLM を用いて実験を行った結果,モデルコンテキストウィンドウ内に無関係なコンテキストを導入することで,性能が著しく低下することが判明した。
ある摂動は、明示的なプロンプトなしでも、必然的にチェーンオブ思考のような推論行動を引き起こす。
論文 参考訳(メタデータ) (2025-04-02T20:18:50Z) - Theoretical Insights in Model Inversion Robustness and Conditional Entropy Maximization for Collaborative Inference Systems [89.35169042718739]
協調推論により、クラウドサーバに機密データを公開することなく、エンドユーザは強力なディープラーニングモデルを活用することができる。
近年の研究では、これらの中間機能は、情報が漏洩し、生データをモデル反転攻撃(MIA)によって再構築できるため、プライバシーを十分に保持できないことが判明している。
この研究はまず、与えられた中間特徴の入力の条件エントロピーが、任意のMIAの下での再構成平均二乗誤差(MSE)の保証された下界を与えることを理論的に証明する。
そして、ガウス混合推定に基づいて、この条件付きエントロピーを有界化するための微分可能かつ可解な尺度を導出し、逆ロバスト性を高める条件付きエントロピーアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-01T07:15:21Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - Identifying the Hazard Boundary of ML-enabled Autonomous Systems Using
Cooperative Co-Evolutionary Search [9.511076358998073]
機械学習対応自律システムにおけるMLコンポーネント(MLC)のハザード境界を解析により同定することが不可欠である。
協調進化アルゴリズム(CCEA)に基づく新しい手法であるMLCSHEを提案する。
複雑な自律走行車(AV)のケーススタディにおけるMLCSHEの有効性と効率について検討した。
論文 参考訳(メタデータ) (2023-01-31T17:50:52Z) - Statistical control for spatio-temporal MEG/EEG source imaging with
desparsified multi-task Lasso [102.84915019938413]
脳磁図(MEG)や脳電図(EEG)のような非侵襲的手法は、非侵襲的手法を約束する。
ソースローカライゼーション(ソースイメージング)の問題は、しかしながら、高次元の統計的推測問題を引き起こす。
この問題に対処するために,分離されたマルチタスクラッソ(ecd-MTLasso)のアンサンブルを提案する。
論文 参考訳(メタデータ) (2020-09-29T21:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。