論文の概要: A Multi-Agent LLM Defense Pipeline Against Prompt Injection Attacks
- arxiv url: http://arxiv.org/abs/2509.14285v2
- Date: Wed, 01 Oct 2025 16:39:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.750112
- Title: A Multi-Agent LLM Defense Pipeline Against Prompt Injection Attacks
- Title(参考訳): プロンプトインジェクション攻撃に対する多エージェントLLM防御パイプライン
- Authors: S M Asif Hossain, Ruksat Khan Shayoni, Mohd Ruhul Ameen, Akif Islam, M. F. Mridha, Jungpil Shin,
- Abstract要約: 本稿では,インジェクション攻撃をリアルタイムに検出・中和する新しいマルチエージェント・ディフェンス・フレームワークを提案する。
我々は2つの異なるアーキテクチャ、シーケンシャル・チェーン・オブ・エージェント・パイプラインと階層的コーディネータ・ベース・システムを用いてアプローチを評価した。
- 参考スコア(独自算出の注目度): 1.1435139523855764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt injection attacks represent a major vulnerability in Large Language Model (LLM) deployments, where malicious instructions embedded in user inputs can override system prompts and induce unintended behaviors. This paper presents a novel multi-agent defense framework that employs specialized LLM agents in coordinated pipelines to detect and neutralize prompt injection attacks in real-time. We evaluate our approach using two distinct architectures: a sequential chain-of-agents pipeline and a hierarchical coordinator-based system. Our comprehensive evaluation on 55 unique prompt injection attacks, grouped into 8 categories and totaling 400 attack instances across two LLM platforms (ChatGLM and Llama2), demonstrates significant security improvements. Without defense mechanisms, baseline Attack Success Rates (ASR) reached 30% for ChatGLM and 20% for Llama2. Our multi-agent pipeline achieved 100% mitigation, reducing ASR to 0% across all tested scenarios. The framework demonstrates robustness across multiple attack categories including direct overrides, code execution attempts, data exfiltration, and obfuscation techniques, while maintaining system functionality for legitimate queries.
- Abstract(参考訳): プロンプトインジェクション攻撃は、ユーザ入力に埋め込まれた悪意のある命令がシステムプロンプトをオーバーライドし、意図しない振る舞いを誘発する、大規模言語モデル(LLM)デプロイメントにおける大きな脆弱性を表している。
本稿では,LLM エージェントを協調パイプラインに組み込んだマルチエージェント・ディフェンス・フレームワークを提案し,リアルタイムにインジェクション攻撃を検出し中和する。
我々は2つの異なるアーキテクチャ、シーケンシャル・チェーン・オブ・エージェント・パイプラインと階層的コーディネータ・ベース・システムを用いてアプローチを評価した。
LLMプラットフォーム(ChatGLMとLlama2)の合計400の攻撃インスタンスにグループ化され,55のユニークなプロンプトインジェクション攻撃に対する包括的評価を行った。
防御機構がなければ、ベースラインアタック成功率(ASR)はChatGLMの30%、Llama2の20%に達した。
私たちのマルチエージェントパイプラインは100%の緩和を実現し、すべてのテストシナリオでASRを0%に削減しました。
このフレームワークは、直接オーバーライド、コード実行の試み、データ抽出、難読化技術など、複数の攻撃カテゴリで堅牢性を示しながら、正当なクエリのシステム機能を維持している。
関連論文リスト
- BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - LeakSealer: A Semisupervised Defense for LLMs Against Prompt Injection and Leakage Attacks [7.115093658017371]
LeakSealerは、法医学的な洞察のための静的分析とHuman-In-The-Loopパイプラインの動的防御を組み合わせた、モデルに依存しないフレームワークである。
筆者らはLeakSealerを,(1)公開ベンチマークデータセットを用いたジェイルブレイクの試み,(2)ラベル付きLLMインタラクションのキュレートデータセットによってサポートされているPIIリークの2つのシナリオで実証的に評価した。
論文 参考訳(メタデータ) (2025-08-01T13:04:28Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Rag and Roll: An End-to-End Evaluation of Indirect Prompt Manipulations in LLM-based Application Frameworks [12.061098193438022]
Retrieval Augmented Generation (RAG) は、分散知識を欠くモデルによく用いられる手法である。
本稿では,RAGシステムのエンドツーエンドの間接的なプロンプト操作に対する安全性について検討する。
論文 参考訳(メタデータ) (2024-08-09T12:26:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。