Fugu-MT 論文翻訳(概要): A Multi-Agent LLM Defense Pipeline Against Prompt Injection Attacks

論文の概要: A Multi-Agent LLM Defense Pipeline Against Prompt Injection Attacks

arxiv url: http://arxiv.org/abs/2509.14285v2
Date: Wed, 01 Oct 2025 16:39:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-02 14:33:21.750112
Title: A Multi-Agent LLM Defense Pipeline Against Prompt Injection Attacks
Title（参考訳）: プロンプトインジェクション攻撃に対する多エージェントLLM防御パイプライン
Authors: S M Asif Hossain, Ruksat Khan Shayoni, Mohd Ruhul Ameen, Akif Islam, M. F. Mridha, Jungpil Shin,
Abstract要約: 本稿では,インジェクション攻撃をリアルタイムに検出・中和する新しいマルチエージェント・ディフェンス・フレームワークを提案する。我々は2つの異なるアーキテクチャ、シーケンシャル・チェーン・オブ・エージェント・パイプラインと階層的コーディネータ・ベース・システムを用いてアプローチを評価した。
参考スコア（独自算出の注目度）: 1.1435139523855764
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Prompt injection attacks represent a major vulnerability in Large Language Model (LLM) deployments, where malicious instructions embedded in user inputs can override system prompts and induce unintended behaviors. This paper presents a novel multi-agent defense framework that employs specialized LLM agents in coordinated pipelines to detect and neutralize prompt injection attacks in real-time. We evaluate our approach using two distinct architectures: a sequential chain-of-agents pipeline and a hierarchical coordinator-based system. Our comprehensive evaluation on 55 unique prompt injection attacks, grouped into 8 categories and totaling 400 attack instances across two LLM platforms (ChatGLM and Llama2), demonstrates significant security improvements. Without defense mechanisms, baseline Attack Success Rates (ASR) reached 30% for ChatGLM and 20% for Llama2. Our multi-agent pipeline achieved 100% mitigation, reducing ASR to 0% across all tested scenarios. The framework demonstrates robustness across multiple attack categories including direct overrides, code execution attempts, data exfiltration, and obfuscation techniques, while maintaining system functionality for legitimate queries.
Abstract（参考訳）: プロンプトインジェクション攻撃は、ユーザ入力に埋め込まれた悪意のある命令がシステムプロンプトをオーバーライドし、意図しない振る舞いを誘発する、大規模言語モデル(LLM)デプロイメントにおける大きな脆弱性を表している。本稿では,LLM エージェントを協調パイプラインに組み込んだマルチエージェント・ディフェンス・フレームワークを提案し,リアルタイムにインジェクション攻撃を検出し中和する。我々は2つの異なるアーキテクチャ、シーケンシャル・チェーン・オブ・エージェント・パイプラインと階層的コーディネータ・ベース・システムを用いてアプローチを評価した。 LLMプラットフォーム(ChatGLMとLlama2)の合計400の攻撃インスタンスにグループ化され,55のユニークなプロンプトインジェクション攻撃に対する包括的評価を行った。防御機構がなければ、ベースラインアタック成功率(ASR)はChatGLMの30%、Llama2の20%に達した。私たちのマルチエージェントパイプラインは100%の緩和を実現し、すべてのテストシナリオでASRを0%に削減しました。このフレームワークは、直接オーバーライド、コード実行の試み、データ抽出、難読化技術など、複数の攻撃カテゴリで堅牢性を示しながら、正当なクエリのシステム機能を維持している。

論文の概要: A Multi-Agent LLM Defense Pipeline Against Prompt Injection Attacks

関連論文リスト