Fugu-MT 論文翻訳(概要): MPMA: Preference Manipulation Attack Against Model Context Protocol

論文の概要: MPMA: Preference Manipulation Attack Against Model Context Protocol

arxiv url: http://arxiv.org/abs/2505.11154v1
Date: Fri, 16 May 2025 11:55:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-19 14:36:14.869066
Title: MPMA: Preference Manipulation Attack Against Model Context Protocol
Title（参考訳）: MPMA: モデルコンテキストプロトコルに対する参照操作攻撃
Authors: Zihan Wang, Hongwei Li, Rui Zhang, Yu Liu, Wenbo Jiang, Wenshu Fan, Qingchuan Zhao, Guowen Xu,
Abstract要約: Model Context Protocol (MCP)は、大きな言語モデル(LLM)のインタフェースマッピングを標準化し、外部データやツールにアクセスする。サードパーティ製のMSPサーバをカスタマイズしたバージョンは、潜在的なセキュリティ上の脆弱性を露呈する。本稿では,MPMA(MPP Preference Manipulation Attack)と呼ばれる新しいセキュリティ脅威を最初に紹介する。
参考スコア（独自算出の注目度）: 24.584415826402935
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Model Context Protocol (MCP) standardizes interface mapping for large language models (LLMs) to access external data and tools, which revolutionizes the paradigm of tool selection and facilitates the rapid expansion of the LLM agent tool ecosystem. However, as the MCP is increasingly adopted, third-party customized versions of the MCP server expose potential security vulnerabilities. In this paper, we first introduce a novel security threat, which we term the MCP Preference Manipulation Attack (MPMA). An attacker deploys a customized MCP server to manipulate LLMs, causing them to prioritize it over other competing MCP servers. This can result in economic benefits for attackers, such as revenue from paid MCP services or advertising income generated from free servers. To achieve MPMA, we first design a Direct Preference Manipulation Attack ($\mathtt{DPMA}$) that achieves significant effectiveness by inserting the manipulative word and phrases into the tool name and description. However, such a direct modification is obvious to users and lacks stealthiness. To address these limitations, we further propose Genetic-based Advertising Preference Manipulation Attack ($\mathtt{GAPMA}$). $\mathtt{GAPMA}$ employs four commonly used strategies to initialize descriptions and integrates a Genetic Algorithm (GA) to enhance stealthiness. The experiment results demonstrate that $\mathtt{GAPMA}$ balances high effectiveness and stealthiness. Our study reveals a critical vulnerability of the MCP in open ecosystems, highlighting an urgent need for robust defense mechanisms to ensure the fairness of the MCP ecosystem.
Abstract（参考訳）: Model Context Protocol (MCP)は、大きな言語モデル(LLM)のインタフェースマッピングを標準化し、外部データやツールにアクセスする。しかし、MSPがますます採用されるにつれて、MSPサーバのサードパーティ製カスタマイズバージョンは潜在的なセキュリティ上の脆弱性を露呈する。本稿では,まず,MPMA(MPP Preference Manipulation Attack)と呼ばれる新たなセキュリティ脅威を紹介する。攻撃者は、LLMを操作するためにカスタマイズされたMPPサーバをデプロイし、他の競合するMPPサーバよりも優先する。これは、有料のMSPサービスからの収入や、無料サーバーから生成された広告収入など、攻撃者にとって経済的利益をもたらす可能性がある。 MPMAを実現するために、我々はまず、操作語とフレーズをツール名と記述に挿入することで、大きな効果を発揮するダイレクト・プレフレクション・マニピュレーション・アタック(\mathtt{DPMA}$)を設計する。しかし、このような直接的な修正はユーザーにとって明らかであり、ステルス性に欠ける。これらの制約に対処するために、さらに遺伝子ベースの広告選択操作攻撃(\mathtt{GAPMA}$)を提案する。 $\mathtt{GAPMA}$は、記述を初期化するための4つの一般的な戦略を採用し、遺伝的アルゴリズム(GA)を統合してステルス性を高める。実験の結果、$\mathtt{GAPMA}$は高い有効性とステルスネスのバランスが示されている。本研究は,オープンエコシステムにおけるMCPの重大な脆弱性を明らかにするとともに,MCPエコシステムの公平性を確保するための堅牢な防御機構の緊急的必要性を明らかにするものである。

関連論文リスト

Trivial Trojans: How Minimal MCP Servers Enable Cross-Tool Exfiltration of Sensitive Data [0.0]
Model Context Protocol(MCP)は、AIエージェントと外部サービス間のシームレスな通信を可能にする、AI-tool統合の大幅な進歩を表している。本稿では、基本的なプログラミングスキルと無料のウェブツールしか必要としない、高度化されていない脅威アクターが、MCPの信頼モデルを利用して、機密性の高い財務データを流出させることを実証する。
論文参考訳（メタデータ） (2025-07-26T09:22:40Z)
Beyond the Protocol: Unveiling Attack Vectors in the Model Context Protocol Ecosystem [9.147044310206773]
Model Context Protocol(MCP)は、LLM(Large Language Model)アプリケーションと外部ツールやリソースとのシームレスな相互作用を可能にするために設計された新しい標準である。本稿では,MPPエコシステムを対象とした攻撃ベクトルに関する最初の体系的研究について述べる。
論文参考訳（メタデータ） (2025-05-31T08:01:11Z)
MCP Safety Training: Learning to Refuse Falsely Benign MCP Exploits using Improved Preference Alignment [0.0]
モデルコンテキストプロトコル(MCP)は、生成AIエージェントのシームレスな統合を可能にするオープン標準として広く採用されている。最近の研究によると、MPPは検索ベースの「偽の良さ」AI攻撃(FBA)の影響を受けており、悪意のあるシステムアクセスとクレデンシャル盗難を可能にしている。攻撃者は、悪意のあるコンテンツをオンラインで投稿するだけで、MCPエージェントを騙して、不審な被害者のシステムに対する攻撃を行なえることを示す。
論文参考訳（メタデータ） (2025-05-29T16:44:29Z)
AgentXploit: End-to-End Redteaming of Black-Box AI Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジィングフレームワークであるAgentXploitを提案する。我々は、AgentXploitをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文参考訳（メタデータ） (2025-05-09T07:40:17Z)
Progent: Programmable Privilege Control for LLM Agents [46.49787947705293]
LLMエージェントの最初の特権制御機構であるProgentを紹介する。コアとなるのは、エージェント実行中に適用される権限制御ポリシを柔軟に表現するためのドメイン固有言語である。これにより、エージェント開発者とユーザは、特定のユースケースに対して適切なポリシーを作成し、セキュリティを保証するために決定的にそれらを強制することができる。
論文参考訳（メタデータ） (2025-04-16T01:58:40Z)
MCP Safety Audit: LLMs with the Model Context Protocol Allow Major Security Exploits [0.0]
Model Context Protocol (MCP) は、大規模言語モデル(LLM)、データソース、エージェントツールへのAPI呼び出しを標準化するオープンプロトコルである。現在のMPP設計はエンドユーザーに幅広いセキュリティリスクをもたらすことを示す。任意のMPPサーバのセキュリティを評価するために,安全監査ツールであるMPPSafetyScannerを導入する。
論文参考訳（メタデータ） (2025-04-02T21:46:02Z)
$\ extit{Agents Under Siege}$: Breaking Pragmatic Multi-Agent LLM Systems with Optimized Prompt Attacks [32.42704787246349]
マルチエージェント大規模言語モデル(LLM)システムは,エージェント間の通信や分散推論に依存するため,新たな敵対的リスクを生み出す。本研究では,トークンの帯域幅の制限,メッセージ配信のレイテンシ,防御機構といった制約のある実用的システムへの攻撃に革新的な焦点をあてる。我々は、レイテンシと帯域幅制約のあるネットワークトポロジ間の迅速な分散を最適化し、分散安全機構をバイパスする、$textitpermutation-invariant adversarial attack$を設計する。
論文参考訳（メタデータ） (2025-03-31T20:43:56Z)
Adversary-Aware DPO: Enhancing Safety Alignment in Vision Language Models via Adversarial Training [50.829723203044395]
本稿では,相手を意識した新しいトレーニングフレームワークである$textitAdversary-Aware DPO (ADPO)$を提案する。 $textitADPO$は、相手のトレーニングをDPOに統合し、最悪の対向的摂動の下でのVLMの安全性アライメントを強化する。 $textitADPO$は、高度なジェイルブレイク攻撃があっても、VLMが堅牢で信頼性を保つことを保証します。
論文参考訳（メタデータ） (2025-02-17T05:28:47Z)
MELON: Provable Defense Against Indirect Prompt Injection Attacks in AI Agents [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱であり、ツール検索情報に埋め込まれた悪意のあるタスクはエージェントをリダイレクトして不正なアクションを取ることができる。マスク機能によって修正されたマスク付きユーザでエージェントの軌道を再実行することで攻撃を検知する新しいIPIディフェンスであるMELONを提案する。
論文参考訳（メタデータ） (2025-02-07T18:57:49Z)
Imprompter: Tricking LLM Agents into Improper Tool Use [35.255462653237885]
大規模言語モデル(LLM)エージェントは、生成機械学習とコードインタプリタ、Webブラウジング、メール、より一般的には外部リソースなどのツールを融合した、新興コンピューティングパラダイムである。我々はエージェントベースのシステムのセキュリティ基盤に貢献し、自動的に計算された難読化された敵攻撃の新しいクラスを探索する。
論文参考訳（メタデータ） (2024-10-19T01:00:57Z)
Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文参考訳（メタデータ） (2024-08-06T01:20:12Z)
Unveiling Vulnerability of Self-Attention [61.85150061213987]
事前訓練された言語モデル(PLM)は、マイナーな単語変更に対して脆弱であることが示されている。本稿では,変圧器を用いたPSMの基本構造,自己注意機構について検討する。構造的摂動によってSAを効果的に堅牢にする新しい平滑化技術である textitS-Attend を導入する。
論文参考訳（メタデータ） (2024-02-26T10:31:45Z)
Towards Semantic Communication Protocols: A Probabilistic Logic Perspective [69.68769942563812]
我々は,NPMを確率論理型言語ProbLogで記述された解釈可能なシンボルグラフに変換することによって構築された意味プロトコルモデル(SPM)を提案する。その解釈性とメモリ効率を利用して、衝突回避のためのSPM再構成などのいくつかの応用を実演する。
論文参考訳（メタデータ） (2022-07-08T14:19:36Z)
Covert Model Poisoning Against Federated Learning: Algorithm Design and Optimization [76.51980153902774]
フェデレーテッド・ラーニング(FL)はパラメータ伝達中にFLモデルに対する外部攻撃に対して脆弱である。本稿では,最先端の防御アグリゲーション機構に対処する有効なMPアルゴリズムを提案する。実験の結果,提案したCMPアルゴリズムは,既存の攻撃機構よりも効果的で,かなり優れていることが示された。
論文参考訳（メタデータ） (2021-01-28T03:28:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。