論文の概要: MCP Safety Training: Learning to Refuse Falsely Benign MCP Exploits using Improved Preference Alignment
- arxiv url: http://arxiv.org/abs/2505.23634v1
- Date: Thu, 29 May 2025 16:44:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.999405
- Title: MCP Safety Training: Learning to Refuse Falsely Benign MCP Exploits using Improved Preference Alignment
- Title(参考訳): MCP安全性トレーニング:改善された優先度アライメントを用いた不正なMPPエクスプロイットの回避学習
- Authors: John Halloran,
- Abstract要約: モデルコンテキストプロトコル(MCP)は、生成AIエージェントのシームレスな統合を可能にするオープン標準として広く採用されている。
最近の研究によると、MPPは検索ベースの「偽の良さ」AI攻撃(FBA)の影響を受けており、悪意のあるシステムアクセスとクレデンシャル盗難を可能にしている。
攻撃者は、悪意のあるコンテンツをオンラインで投稿するだけで、MCPエージェントを騙して、不審な被害者のシステムに対する攻撃を行なえることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The model context protocol (MCP) has been widely adapted as an open standard enabling the seamless integration of generative AI agents. However, recent work has shown the MCP is susceptible to retrieval-based "falsely benign" attacks (FBAs), allowing malicious system access and credential theft, but requiring that users download compromised files directly to their systems. Herein, we show that the threat model of MCP-based attacks is significantly broader than previously thought, i.e., attackers need only post malicious content online to deceive MCP agents into carrying out their attacks on unsuspecting victims' systems. To improve alignment guardrails against such attacks, we introduce a new MCP dataset of FBAs and (truly) benign samples to explore the effectiveness of direct preference optimization (DPO) for the refusal training of large language models (LLMs). While DPO improves model guardrails against such attacks, we show that the efficacy of refusal learning varies drastically depending on the model's original post-training alignment scheme--e.g., GRPO-based LLMs learn to refuse extremely poorly. Thus, to further improve FBA refusals, we introduce Retrieval Augmented Generation for Preference alignment (RAG-Pref), a novel preference alignment strategy based on RAG. We show that RAG-Pref significantly improves the ability of LLMs to refuse FBAs, particularly when combined with DPO alignment, thus drastically improving guardrails against MCP-based attacks.
- Abstract(参考訳): モデルコンテキストプロトコル(MCP)は、生成AIエージェントのシームレスな統合を可能にするオープン標準として広く採用されている。
しかし、最近の研究により、MPPは、悪意のあるシステムアクセスとクレデンシャル盗難を許容する検索ベースの「偽善攻撃」(FBA)に感受性があることが示されている。
ここでは、CP攻撃の脅威モデルが従来考えられていたよりもはるかに広いこと、すなわち、攻撃者は悪意のあるコンテンツをオンラインで投稿するだけで、CPエージェントを騙して、不審な被害者のシステムに対する攻撃を行なわなければならないことを示す。
このような攻撃に対するアライメントガードレールの改善を目的として,大規模言語モデル(LLM)の拒絶訓練における直接選好最適化(DPO)の有効性を検討するために,FBAの新たなMPPデータセットと(真に)良質なサンプルを導入する。
DPOはこのような攻撃に対するモデルガードレールを改善するが、モデル本来の訓練後のアライメント(例えばGRPOベースのLLM)によって、拒絶学習の有効性が大幅に変化することを示す。
したがって、FBAの拒絶をさらに改善するため、RAGに基づく新規な優先アライメント戦略であるRetrieval Augmented Generation for Preference alignment (RAG-Pref)を導入する。
RAG-Prefは、特にDPOアライメントと組み合わせた場合、LPMがFBAを拒否する能力を大幅に改善し、MPPベースの攻撃に対するガードレールを大幅に改善することを示した。
関連論文リスト
- MPMA: Preference Manipulation Attack Against Model Context Protocol [24.584415826402935]
Model Context Protocol (MCP)は、大きな言語モデル(LLM)のインタフェースマッピングを標準化し、外部データやツールにアクセスする。
サードパーティ製のMSPサーバをカスタマイズしたバージョンは、潜在的なセキュリティ上の脆弱性を露呈する。
本稿では,MPMA(MPP Preference Manipulation Attack)と呼ばれる新しいセキュリティ脅威を最初に紹介する。
論文 参考訳(メタデータ) (2025-05-16T11:55:12Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - CheatAgent: Attacking LLM-Empowered Recommender Systems via LLM Agent [32.958798200220286]
大言語モデル(LLM)を利用したレコメンデーションシステム(RecSys)は、パーソナライズされたユーザーエクスペリエンスに大きな進歩をもたらした。
LLMの人間的な能力を活用して、CheatAgentと呼ばれる新たな攻撃フレームワークを提案する。
提案手法は,入力修正の最小化による最大衝撃に対する挿入位置をまず同定する。
論文 参考訳(メタデータ) (2025-04-13T05:31:37Z) - Large Language Model driven Policy Exploration for Recommender Systems [50.70228564385797]
静的ユーザデータに基づいてトレーニングされたオフラインRLポリシは、動的オンライン環境にデプロイされた場合、分散シフトに対して脆弱である。
オンラインRLベースのRSも、トレーニングされていないポリシーや不安定なポリシーにユーザをさらけ出すリスクがあるため、運用デプロイメントの課題に直面している。
大規模言語モデル(LLM)は、ユーザー目標と事前学習ポリシーをオフラインで模倣する有望なソリューションを提供する。
LLMから抽出したユーザの嗜好を利用した対話型学習ポリシー(iALP)を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:37:44Z) - Robust LLM safeguarding via refusal feature adversarial training [15.76605079209956]
大規模言語モデル(LLM)は、有害な応答を誘発する敵攻撃に対して脆弱である。
本稿では,敵対的訓練を効率的に行う新しいアルゴリズムReFATを提案する。
実験結果から, ReFATは, 広範囲な敵攻撃に対する3つのLLMのロバスト性を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-09-30T08:41:39Z) - Advancing Generalized Transfer Attack with Initialization Derived Bilevel Optimization and Dynamic Sequence Truncation [49.480978190805125]
転送攻撃はブラックボックスアプリケーションに大きな関心を惹きつける。
既存の作業は、本質的に単一のレベルの目的 w.r.t. シュロゲートモデルを直接最適化する。
本稿では,上位レベル(UL)と下位レベル(LL)のサロゲート攻撃とのネスト関係を明示的に再構築する2レベル最適化手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T07:45:27Z) - MF-CLIP: Leveraging CLIP as Surrogate Models for No-box Adversarial Attacks [65.86360607693457]
敵に事前の知識がないノンボックス攻撃は、実際的な関連性にもかかわらず、比較的過小評価されている。
本研究は,大規模ビジョン・ランゲージ・モデル(VLM)をノンボックス・アタックの実行のための代理モデルとして活用するための体系的な研究である。
理論的および実証的な分析により,バニラCLIPを直接サロゲートモデルとして適用するための識別能力の不足に起因するno-boxアタックの実行に重要な制限があることが判明した。
MF-CLIP(MF-CLIP: MF-CLIP)はCLIPのサロゲートモデルとしての有効性を高める新しいフレームワークである。
論文 参考訳(メタデータ) (2023-07-13T08:10:48Z) - G$^2$uardFL: Safeguarding Federated Learning Against Backdoor Attacks
through Attributed Client Graph Clustering [116.4277292854053]
Federated Learning (FL)は、データ共有なしで協調的なモデルトレーニングを提供する。
FLはバックドア攻撃に弱いため、有害なモデル重みがシステムの整合性を損なう。
本稿では、悪意のあるクライアントの識別を属性グラフクラスタリング問題として再解釈する保護フレームワークであるG$2$uardFLを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:15:04Z) - Covert Model Poisoning Against Federated Learning: Algorithm Design and
Optimization [76.51980153902774]
フェデレーテッド・ラーニング(FL)はパラメータ伝達中にFLモデルに対する外部攻撃に対して脆弱である。
本稿では,最先端の防御アグリゲーション機構に対処する有効なMPアルゴリズムを提案する。
実験の結果,提案したCMPアルゴリズムは,既存の攻撃機構よりも効果的で,かなり優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T03:28:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。