論文の概要: Automatic Red Teaming LLM-based Agents with Model Context Protocol Tools
- arxiv url: http://arxiv.org/abs/2509.21011v1
- Date: Thu, 25 Sep 2025 11:14:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.86122
- Title: Automatic Red Teaming LLM-based Agents with Model Context Protocol Tools
- Title(参考訳): モデルコンテキストプロトコルツールを用いたLLMエージェントの自動再結合
- Authors: Ping He, Changjiang Li, Binbin Zhao, Tianyu Du, Shouling Ji,
- Abstract要約: 我々は、悪意のあるMPPツールを生成することで、LSMベースのエージェントのための自動レッドチーム化フレームワークであるAutoMalToolを提案する。
評価の結果,AutoMalToolは主要なLCMエージェントの動作を制御できる悪意のあるMPPツールを効果的に生成できることがわかった。
- 参考スコア(独自算出の注目度): 47.32559576064343
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The remarkable capability of large language models (LLMs) has led to the wide application of LLM-based agents in various domains. To standardize interactions between LLM-based agents and their environments, model context protocol (MCP) tools have become the de facto standard and are now widely integrated into these agents. However, the incorporation of MCP tools introduces the risk of tool poisoning attacks, which can manipulate the behavior of LLM-based agents. Although previous studies have identified such vulnerabilities, their red teaming approaches have largely remained at the proof-of-concept stage, leaving the automatic and systematic red teaming of LLM-based agents under the MCP tool poisoning paradigm an open question. To bridge this gap, we propose AutoMalTool, an automated red teaming framework for LLM-based agents by generating malicious MCP tools. Our extensive evaluation shows that AutoMalTool effectively generates malicious MCP tools capable of manipulating the behavior of mainstream LLM-based agents while evading current detection mechanisms, thereby revealing new security risks in these agents.
- Abstract(参考訳): 大規模言語モデル(LLM)の顕著な能力は、様々なドメインでLLMベースのエージェントを広範囲に応用することにつながった。
LLMベースのエージェントとその環境間のインタラクションを標準化するために、モデルコンテキストプロトコル(MCP)ツールがデファクトスタンダードとなり、現在ではこれらのエージェントに広く統合されている。
しかし、MPPツールの組み入れにより、LSMベースのエージェントの挙動を制御できるツール中毒攻撃のリスクがもたらされる。
以前の研究ではそのような脆弱性を特定できたが、そのレッド・チームリングのアプローチは概念実証段階に留まっており、MDPツール中毒パラダイムの下でのLSMベースのエージェントの自動的かつ体系的なレッド・チームリングはオープンな問題となっている。
このギャップを埋めるために、悪意のあるMPPツールを生成することで、LLMベースのエージェントのための自動レッドチーム化フレームワークであるAutoMalToolを提案する。
以上の結果から,AutoMalToolは,現在の検出機構を回避しつつ,主要なLCMエージェントの動作を操作できる悪意のあるMPPツールを効果的に生成し,それらのエージェントに新たなセキュリティリスクを生じさせることが示唆された。
関連論文リスト
- Risk Analysis Techniques for Governed LLM-based Multi-Agent Systems [0.0]
本稿では,マルチエージェントAIシステムにおけるリスク識別と分析の初期段階について述べる。
信頼性障害のカスケード,エージェント間コミュニケーション障害,モノカルチャー崩壊,適合性バイアス,心の欠陥理論,混合モチベーションダイナミクスの6つの重要な障害モードについて検討した。
論文 参考訳(メタデータ) (2025-08-06T06:06:57Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Les Dissonances: Cross-Tool Harvesting and Polluting in Multi-Tool Empowered LLM Agents [15.15485816037418]
本稿では,マルチツール対応LLMエージェントにおけるタスク制御フローのシステマティックセキュリティ解析について述べる。
複数の攻撃ベクトルを含む新しい脅威であるクロスツールハーベスティングとポリッティング(XTHP)を同定する。
この脅威の影響を理解するために,我々は,XTHP攻撃を受けやすい現実世界のエージェントツールを自動的に検出する動的スキャンツールであるChordを開発した。
論文 参考訳(メタデータ) (2025-04-04T01:41:06Z) - UDora: A Unified Red Teaming Framework against LLM Agents by Dynamically Hijacking Their Own Reasoning [17.448966928905733]
外部ツールを備えた大規模言語モデル(LLM)エージェントは、複雑なタスクに対してますます強力になっている。
UDoraはLDMエージェント用に設計された統一されたレッド・チーム・フレームワークで、エージェントの推論プロセスを動的にハイジャックし、悪意ある振る舞いを強制する。
論文 参考訳(メタデータ) (2025-02-28T21:30:28Z) - AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。
我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。
主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文 参考訳(メタデータ) (2024-10-11T17:39:22Z) - Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based Agents [47.219047422240145]
我々は、LSMベースのエージェントに対して、典型的な安全脅威であるバックドアアタックの1つを調査する第一歩を踏み出した。
具体的には、ユーザ入力とモデル出力のみを操作できる従来のLDMに対するバックドア攻撃と比較して、エージェントバックドア攻撃はより多様で隠蔽的な形式を示す。
論文 参考訳(メタデータ) (2024-02-17T06:48:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。