論文の概要: MPMA: Preference Manipulation Attack Against Model Context Protocol
- arxiv url: http://arxiv.org/abs/2505.11154v1
- Date: Fri, 16 May 2025 11:55:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.869066
- Title: MPMA: Preference Manipulation Attack Against Model Context Protocol
- Title(参考訳): MPMA: モデルコンテキストプロトコルに対する参照操作攻撃
- Authors: Zihan Wang, Hongwei Li, Rui Zhang, Yu Liu, Wenbo Jiang, Wenshu Fan, Qingchuan Zhao, Guowen Xu,
- Abstract要約: Model Context Protocol (MCP)は、大きな言語モデル(LLM)のインタフェースマッピングを標準化し、外部データやツールにアクセスする。
サードパーティ製のMSPサーバをカスタマイズしたバージョンは、潜在的なセキュリティ上の脆弱性を露呈する。
本稿では,MPMA(MPP Preference Manipulation Attack)と呼ばれる新しいセキュリティ脅威を最初に紹介する。
- 参考スコア(独自算出の注目度): 24.584415826402935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model Context Protocol (MCP) standardizes interface mapping for large language models (LLMs) to access external data and tools, which revolutionizes the paradigm of tool selection and facilitates the rapid expansion of the LLM agent tool ecosystem. However, as the MCP is increasingly adopted, third-party customized versions of the MCP server expose potential security vulnerabilities. In this paper, we first introduce a novel security threat, which we term the MCP Preference Manipulation Attack (MPMA). An attacker deploys a customized MCP server to manipulate LLMs, causing them to prioritize it over other competing MCP servers. This can result in economic benefits for attackers, such as revenue from paid MCP services or advertising income generated from free servers. To achieve MPMA, we first design a Direct Preference Manipulation Attack ($\mathtt{DPMA}$) that achieves significant effectiveness by inserting the manipulative word and phrases into the tool name and description. However, such a direct modification is obvious to users and lacks stealthiness. To address these limitations, we further propose Genetic-based Advertising Preference Manipulation Attack ($\mathtt{GAPMA}$). $\mathtt{GAPMA}$ employs four commonly used strategies to initialize descriptions and integrates a Genetic Algorithm (GA) to enhance stealthiness. The experiment results demonstrate that $\mathtt{GAPMA}$ balances high effectiveness and stealthiness. Our study reveals a critical vulnerability of the MCP in open ecosystems, highlighting an urgent need for robust defense mechanisms to ensure the fairness of the MCP ecosystem.
- Abstract(参考訳): Model Context Protocol (MCP)は、大きな言語モデル(LLM)のインタフェースマッピングを標準化し、外部データやツールにアクセスする。
しかし、MSPがますます採用されるにつれて、MSPサーバのサードパーティ製カスタマイズバージョンは潜在的なセキュリティ上の脆弱性を露呈する。
本稿では,まず,MPMA(MPP Preference Manipulation Attack)と呼ばれる新たなセキュリティ脅威を紹介する。
攻撃者は、LLMを操作するためにカスタマイズされたMPPサーバをデプロイし、他の競合するMPPサーバよりも優先する。
これは、有料のMSPサービスからの収入や、無料サーバーから生成された広告収入など、攻撃者にとって経済的利益をもたらす可能性がある。
MPMAを実現するために、我々はまず、操作語とフレーズをツール名と記述に挿入することで、大きな効果を発揮するダイレクト・プレフレクション・マニピュレーション・アタック(\mathtt{DPMA}$)を設計する。
しかし、このような直接的な修正はユーザーにとって明らかであり、ステルス性に欠ける。
これらの制約に対処するために、さらに遺伝子ベースの広告選択操作攻撃(\mathtt{GAPMA}$)を提案する。
$\mathtt{GAPMA}$は、記述を初期化するための4つの一般的な戦略を採用し、遺伝的アルゴリズム(GA)を統合してステルス性を高める。
実験の結果、$\mathtt{GAPMA}$は高い有効性とステルスネスのバランスが示されている。
本研究は,オープンエコシステムにおけるMCPの重大な脆弱性を明らかにするとともに,MCPエコシステムの公平性を確保するための堅牢な防御機構の緊急的必要性を明らかにするものである。
関連論文リスト
- AgentXploit: End-to-End Redteaming of Black-Box AI Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジィングフレームワークであるAgentXploitを提案する。
我々は、AgentXploitをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Progent: Programmable Privilege Control for LLM Agents [46.49787947705293]
LLMエージェントの最初の特権制御機構であるProgentを紹介する。
コアとなるのは、エージェント実行中に適用される権限制御ポリシを柔軟に表現するためのドメイン固有言語である。
これにより、エージェント開発者とユーザは、特定のユースケースに対して適切なポリシーを作成し、セキュリティを保証するために決定的にそれらを強制することができる。
論文 参考訳(メタデータ) (2025-04-16T01:58:40Z) - MCP Safety Audit: LLMs with the Model Context Protocol Allow Major Security Exploits [0.0]
Model Context Protocol (MCP) は、大規模言語モデル(LLM)、データソース、エージェントツールへのAPI呼び出しを標準化するオープンプロトコルである。
現在のMPP設計はエンドユーザーに幅広いセキュリティリスクをもたらすことを示す。
任意のMPPサーバのセキュリティを評価するために,安全監査ツールであるMPPSafetyScannerを導入する。
論文 参考訳(メタデータ) (2025-04-02T21:46:02Z) - Adversary-Aware DPO: Enhancing Safety Alignment in Vision Language Models via Adversarial Training [50.829723203044395]
本稿では,相手を意識した新しいトレーニングフレームワークである$textitAdversary-Aware DPO (ADPO)$を提案する。
$textitADPO$は、相手のトレーニングをDPOに統合し、最悪の対向的摂動の下でのVLMの安全性アライメントを強化する。
$textitADPO$は、高度なジェイルブレイク攻撃があっても、VLMが堅牢で信頼性を保つことを保証します。
論文 参考訳(メタデータ) (2025-02-17T05:28:47Z) - Imprompter: Tricking LLM Agents into Improper Tool Use [35.255462653237885]
大規模言語モデル(LLM)エージェントは、生成機械学習とコードインタプリタ、Webブラウジング、メール、より一般的には外部リソースなどのツールを融合した、新興コンピューティングパラダイムである。
我々はエージェントベースのシステムのセキュリティ基盤に貢献し、自動的に計算された難読化された敵攻撃の新しいクラスを探索する。
論文 参考訳(メタデータ) (2024-10-19T01:00:57Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - Towards Semantic Communication Protocols: A Probabilistic Logic
Perspective [69.68769942563812]
我々は,NPMを確率論理型言語ProbLogで記述された解釈可能なシンボルグラフに変換することによって構築された意味プロトコルモデル(SPM)を提案する。
その解釈性とメモリ効率を利用して、衝突回避のためのSPM再構成などのいくつかの応用を実演する。
論文 参考訳(メタデータ) (2022-07-08T14:19:36Z) - Covert Model Poisoning Against Federated Learning: Algorithm Design and
Optimization [76.51980153902774]
フェデレーテッド・ラーニング(FL)はパラメータ伝達中にFLモデルに対する外部攻撃に対して脆弱である。
本稿では,最先端の防御アグリゲーション機構に対処する有効なMPアルゴリズムを提案する。
実験の結果,提案したCMPアルゴリズムは,既存の攻撃機構よりも効果的で,かなり優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T03:28:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。