論文の概要: T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search
- arxiv url: http://arxiv.org/abs/2603.22341v1
- Date: Sat, 21 Mar 2026 12:33:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.07923
- Title: T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search
- Title(参考訳): T-MAP: 軌道認識進化探索によるLLMエージェントの組換え
- Authors: Hyomin Lee, Sangwoo Park, Yumin Choi, Sohyun An, Seanie Lee, Sung Ju Hwang,
- Abstract要約: 提案手法は, 対向的プロンプトの発見を導くために, 実行トラジェクトリを利用するトラジェクトリ対応の進化探索手法であるT-MAPを提案する。
本手法は,安全ガードレールをバイパスするだけでなく,実際のツールインタラクションによる有害な目標を確実に実現するための攻撃の自動生成を可能にする。
- 参考スコア(独自算出の注目度): 49.99459363244884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While prior red-teaming efforts have focused on eliciting harmful text outputs from large language models (LLMs), such approaches fail to capture agent-specific vulnerabilities that emerge through multi-step tool execution, particularly in rapidly growing ecosystems such as the Model Context Protocol (MCP). To address this gap, we propose a trajectory-aware evolutionary search method, T-MAP, which leverages execution trajectories to guide the discovery of adversarial prompts. Our approach enables the automatic generation of attacks that not only bypass safety guardrails but also reliably realize harmful objectives through actual tool interactions. Empirical evaluations across diverse MCP environments demonstrate that T-MAP substantially outperforms baselines in attack realization rate (ARR) and remains effective against frontier models, including GPT-5.2, Gemini-3-Pro, Qwen3.5, and GLM-5, thereby revealing previously underexplored vulnerabilities in autonomous LLM agents.
- Abstract(参考訳): 以前のレッドチームの取り組みは、大きな言語モデル(LLM)から有害なテキスト出力を引き出すことに重点を置いていたが、このようなアプローチは、特にモデルコンテキストプロトコル(MCP)のような急速に成長するエコシステムにおいて、多段階ツール実行によって現れるエージェント固有の脆弱性を捕捉できない。
このギャップに対処するために,提案手法であるT-MAPを提案する。
本手法は,安全ガードレールをバイパスするだけでなく,実際のツールインタラクションによる有害な目標を確実に実現するための攻撃の自動生成を可能にする。
多様なMCP環境における実証的な評価は、T-MAPが攻撃実現率(ARR)のベースラインを大幅に上回っており、GPT-5.2、Gemini-3-Pro、Qwen3.5、GLM-5といったフロンティアモデルに対して有効であることを示している。
関連論文リスト
- OpenRT: An Open-Source Red Teaming Framework for Multimodal LLMs [36.57820295876294]
MLLMの安全性評価のための統一的,モジュール型,高スループットのRed-teamingフレームワークであるOpenRTを紹介した。
OpenRTのコアとなるのは,5次元にわたるモジュール分離を可能にする対角カーネルを導入することで,自動化された再チームのパラダイムシフトだ。
このフレームワークは、ホワイトボックス勾配、マルチモーダル摂動、高度なマルチエージェント進化戦略など、37の多様な攻撃手法を統合している。
論文 参考訳(メタデータ) (2026-01-04T16:41:33Z) - Securing the Model Context Protocol: Defending LLMs Against Tool Poisoning and Adversarial Attacks [8.419049623790618]
本研究は,MPP統合システムに対するセマンティックアタックの3つのクラスを分析する。
ディスクリプタの整合性を強制するためのRSAベースのマニフェスト署名、不審なツール定義を検出するためのLLM-on-LLMセマンティックベッティング、実行時に異常なツール動作をブロックする軽量ガードレールである。
提案手法は, モデル微調整や内部修正を伴わずに, 安全でないツール実行率を低減できることを示す。
論文 参考訳(メタデータ) (2025-12-06T20:07:58Z) - Exploiting Web Search Tools of AI Agents for Data Exfiltration [0.46664938579243564]
大規模言語モデル(LLM)は、自然言語処理からWeb検索のような動的まで、複雑なタスクの実行に日常的に使用されている。
ツールコールと検索拡張生成(RAG)の使用により、LLMは機密性の高い企業データの処理と取得が可能になり、その機能と悪用に対する脆弱性の両方を増幅する。
我々は、現在のLLMが間接的にインジェクションアタックを誘導し、どのパラメーター、モデルサイズや製造元が脆弱性を形作り、どの攻撃方法が最も効果的かを分析する。
論文 参考訳(メタデータ) (2025-10-10T07:39:01Z) - MCP-Guard: A Defense Framework for Model Context Protocol Integrity in Large Language Model Applications [21.70488724213541]
大規模言語モデルと外部ツールの統合は、重大なセキュリティ脆弱性をもたらす。
LLM-toolインタラクション用に設計されたロバストな層状防御アーキテクチャであるMPP-Guardを提案する。
MCP-AttackBenchも紹介します。
論文 参考訳(メタデータ) (2025-08-14T18:00:25Z) - Detection Method for Prompt Injection by Integrating Pre-trained Model and Heuristic Feature Engineering [3.0823377252469144]
即時注射攻撃は 重大な セキュリティ上の脅威として現れました
既存の防御機構は、有効性と一般化性の間のトレードオフに直面している。
本稿では,デュアルチャネル機能融合検出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-05T06:01:19Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。