論文の概要: CourtGuard: A Local, Multiagent Prompt Injection Classifier
- arxiv url: http://arxiv.org/abs/2510.19844v1
- Date: Mon, 20 Oct 2025 20:10:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.325067
- Title: CourtGuard: A Local, Multiagent Prompt Injection Classifier
- Title(参考訳): CourtGuard: ローカルでマルチエージェントのpromptインジェクション分類器
- Authors: Isaac Wu, Michael Maslowski,
- Abstract要約: プロンプトインジェクション攻撃は、大きな言語モデル(LLM)が機密データを漏洩させ、誤情報を広げ、有害な振る舞いを示す可能性がある。
このような攻撃に対して防御するために,ローカルに実行可能なマルチエージェントインジェクションインジェクション分類器であるCourtGuardを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) become integrated into various sensitive applications, prompt injection, the use of prompting to induce harmful behaviors from LLMs, poses an ever increasing risk. Prompt injection attacks can cause LLMs to leak sensitive data, spread misinformation, and exhibit harmful behaviors. To defend against these attacks, we propose CourtGuard, a locally-runnable, multiagent prompt injection classifier. In it, prompts are evaluated in a court-like multiagent LLM system, where a "defense attorney" model argues the prompt is benign, a "prosecution attorney" model argues the prompt is a prompt injection, and a "judge" model gives the final classification. CourtGuard has a lower false positive rate than the Direct Detector, an LLM as-a-judge. However, CourtGuard is generally a worse prompt injection detector. Nevertheless, this lower false positive rate highlights the importance of considering both adversarial and benign scenarios for the classification of a prompt. Additionally, the relative performance of CourtGuard in comparison to other prompt injection classifiers advances the use of multiagent systems as a defense against prompt injection attacks. The implementations of CourtGuard and the Direct Detector with full prompts for Gemma-3-12b-it, Llama-3.3-8B, and Phi-4-mini-instruct are available at https://github.com/isaacwu2000/CourtGuard.
- Abstract(参考訳): 大型言語モデル(LLMs)が様々な敏感なアプリケーションに統合されるにつれて、LSMから有害な振る舞いを誘発するインジェクションのプロンプトの使用は、ますます増加するリスクを引き起こす。
プロンプト・インジェクション・アタックは、LSMが機密データを漏洩させ、誤報を拡散させ、有害な行動を示す可能性がある。
このような攻撃に対して防御するために,ローカルに実行可能なマルチエージェントインジェクションインジェクション分類器であるCourtGuardを提案する。
裁判所のようなマルチエージェントLPMシステムでは、プロンプトが評価され、「防衛弁護士」モデルはプロンプトが良性であると主張し、「検察弁護士」モデルはプロンプトがプロンプト注入であると主張し、「ジャッジ」モデルは最終分類を与える。
CourtGuard の偽陽性率は、LSM as-a-judge である Direct Detector よりも低い。
しかし、CourtGuardは一般的に、より悪いインジェクション検出器である。
それでも、この低い偽陽性率は、プロンプトの分類において、敵対的シナリオと良性シナリオの両方を考慮することの重要性を強調している。
さらに、他のプロンプトインジェクション分類器と比較して、CourtGuardの相対的な性能は、プロンプトインジェクション攻撃に対する防御としてマルチエージェントシステムを使うことを前進させる。
CourtGuardとDirect DetectorのGemma-3-12b-it、Llama-3.3-8B、Phi-4-mini-instructの実装はhttps://github.com/isaacwu2000/CourtGuardで利用可能である。
関連論文リスト
- Backdoor-Powered Prompt Injection Attacks Nullify Defense Methods [95.54363609024847]
大型言語モデル(LLM)はインジェクション攻撃に弱い。
本稿では,即時噴射防御法を無効化するより悪質な攻撃について検討する。
バックドアによるプロンプトインジェクション攻撃は、以前のプロンプトインジェクション攻撃よりも有害である。
論文 参考訳(メタデータ) (2025-10-04T07:11:11Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - PromptArmor: Simple yet Effective Prompt Injection Defenses [92.64476186023197]
PromptArmorは簡便で効果的なインジェクション攻撃対策である。
PromptArmorは、市販のLCMに、潜在的に注入されたプロンプトを検出し削除するよう促す。
以上の結果から, PromptArmorはインジェクションプロンプトを正確に識別・除去できることがわかった。
論文 参考訳(メタデータ) (2025-07-21T03:41:44Z) - To Protect the LLM Agent Against the Prompt Injection Attack with Polymorphic Prompt [5.8935359767204805]
本稿では,ポリモルフィック・プロンプト・アセンブラという,新しい軽量防衛機構を提案する。
アプローチは、インジェクションのインジェクションがシステムプロンプトの構造を推測し、壊す必要があるという洞察に基づいている。
PPAは攻撃者がプロンプト構造を予測するのを防ぎ、性能を損なうことなくセキュリティを向上させる。
論文 参考訳(メタデータ) (2025-06-06T04:50:57Z) - MELON: Provable Defense Against Indirect Prompt Injection Attacks in AI Agents [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱であり、ツール検索情報に埋め込まれた悪意のあるタスクはエージェントをリダイレクトして不正なアクションを取ることができる。
マスク機能によって修正されたマスク付きユーザでエージェントの軌道を再実行することで攻撃を検知する新しいIPIディフェンスであるMELONを提案する。
論文 参考訳(メタデータ) (2025-02-07T18:57:49Z) - InjecGuard: Benchmarking and Mitigating Over-defense in Prompt Injection Guardrail Models [7.186499635424984]
プロンプトインジェクション攻撃は大規模言語モデル(LLM)に重大な脅威をもたらす
プロンプトガードモデルは防御に有効であるが、単語バイアスの引き金として過防衛に苦しむ。
InjecGuardは、新しいトレーニング戦略であるMitigating Over-defense for Freeを取り入れた、新しいプロンプトガードモデルである。
論文 参考訳(メタデータ) (2024-10-30T07:39:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。