論文の概要: Blind Spots in the Guard: How Domain-Camouflaged Injection Attacks Evade Detection in Multi-Agent LLM Systems
- arxiv url: http://arxiv.org/abs/2605.22001v1
- Date: Thu, 21 May 2026 04:58:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.098464
- Title: Blind Spots in the Guard: How Domain-Camouflaged Injection Attacks Evade Detection in Multi-Agent LLM Systems
- Title(参考訳): ガードの盲点:多エージェントLDMシステムにおけるドメイン・カモフラージュ・インジェクション・アタックのエバド検出方法
- Authors: Aaditya Pai,
- Abstract要約: LLMエージェントを保護するために配置された注入検出器は、自分自身をオーバーライドディレクティブとして発表する静的なテンプレートベースのペイロードで校正される。
対象文書のドメイン語彙や権限構造を模倣するペイロードが生成されると、標準検出器はそれをフラグ付けできない。
我々はこれをキャモフラージュ検出ギャップ (CDG) として定式化し, 静的ペイロードとカモフラージュペイロードの注入検出率の差について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Injection detectors deployed to protect LLM agents are calibrated on static, template-based payloads that announce themselves as override directives. We identify a systematic blind spot: when payloads are generated to mimic the domain vocabulary and authority structures of the target document, what we call domain camouflaged injection, standard detectors fail to flag them, with detection rates dropping from 93.8% to 9.7% on Llama 3.1 8B and from 100% to 55.6% on Gemini 2.0 Flash. We formalize this as the Camouflage Detection Gap (CDG), the difference in injection detection rate between static and camouflaged payloads. Across 45 tasks spanning three domains and two model families, CDG is large and statistically significant (chi^2 = 38.03, p < 0.001 for Llama; chi^2 = 17.05, p < 0.001 for Gemini), with zero reverse discordant pairs in either case. We additionally evaluate Llama Guard 3, a production safety classifier, which detects zero camouflage payloads (IDRcamouflage = 0.000), confirming that the blind spot extends beyond few-shot detectors to dedicated safety classifiers. We further show that multi-agent debate architectures amplify static injection attacks by up to 9.9x on smaller models, while stronger models show collective resistance. Targeted detector augmentation provides only partial remediation (10.2% improvement on Llama, 78.7% on Gemini), suggesting the vulnerability is architectural rather than incidental for weaker models. Our framework, task bank, and payload generator are released publicly.
- Abstract(参考訳): LLMエージェントを保護するために配置された注入検出器は、自分自身をオーバーライドディレクティブとして発表する静的なテンプレートベースのペイロードで校正される。
対象文書のドメイン語彙と権限構造を模倣するためにペイロードが生成されるとき、ドメインカモフラージュ注入と呼ばれるものは、標準検出器がフラグを付けず、検出率はLlama 3.1 8Bで93.8%から9.7%、Gemini 2.0 Flashで100%から55.6%に低下する。
我々はこれをキャモフラージュ検出ギャップ (CDG) として定式化し, 静的ペイロードとカモフラージュペイロードの注入検出率の差について検討した。
3つの領域と2つのモデル族にまたがる45のタスクにおいて、CDGは大きく統計的に有意である(chi^2 = 38.03, p < 0.001, chi^2 = 17.05, p < 0.001)。
また、製造安全分類器であるLlama Guard 3は、ゼロカモフラージュペイロード(IDRcamouflage = 0.000)を検出し、盲点が数発の検出器から専用の安全分類器まで広がることを確認した。
さらに、より強力なモデルでは集団抵抗を示す一方、マルチエージェントの議論アーキテクチャは、より小さなモデルで最大9.9倍の静的インジェクション攻撃を増幅することを示した。
目標検出器の増設は部分的な修復(ラマでは10.2%、ジェミニでは78.7%)のみを提供し、脆弱性は弱いモデルでは偶然ではなくアーキテクチャであることを示している。
私たちのフレームワーク、タスクバンク、ペイロードジェネレータは公開されています。
関連論文リスト
- Membership Inference Attacks on Discrete Diffusion Language Models [0.0]
MDLMの微調整によるMIA攻撃について検討し、現在の灰色のボックスベースラインが示唆しているよりもかなり脆弱であることを示す。
また、Kは非関連領域のデータに基づいて訓練された3つの代理MDLMに等しいシャドーモデル転送攻撃を設計し、ターゲット領域へのアクセスのないラベルを生成する。
論文 参考訳(メタデータ) (2026-05-15T01:38:26Z) - GAMBIT: A Three-Mode Benchmark for Adversarial Robustness in Multi-Agent LLM Collectives [48.545980031973556]
GAMBITは、インポスタ検出器を評価するための3つの評価モードと2つの独立したスコアを持つベンチマークである。
ベンチマークには、240の共進化型インポスタ戦略にまたがる27,804のラベル付きインスタンスのデータセットが付属している。
論文 参考訳(メタデータ) (2026-05-09T16:07:23Z) - Defending against Indirect Prompt Injection by Instruction Detection [109.30156975159561]
InstructDetectorは、LLMの動作状態を利用して潜在的なIPI攻撃を特定する、新しい検出ベースのアプローチである。
InstructDetectorは、ドメイン内設定で99.60%、ドメイン外設定で96.90%の検出精度を達成し、攻撃成功率をBIPIAベンチマークで0.03%に下げる。
論文 参考訳(メタデータ) (2025-05-08T13:04:45Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Enhancing Object Detection Robustness: Detecting and Restoring Confidence in the Presence of Adversarial Patch Attacks [2.963101656293054]
敵パッチに対するYOLOv5モデルの防御機構について検討した。
我々はSegment and Complete (SAC)、Inpainting、Latent Diffusion Modelsを含むいくつかの防衛実験を行った。
その結果, 対向パッチは平均検出信頼度を22.06%低下させることがわかった。
論文 参考訳(メタデータ) (2024-03-04T13:32:48Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。