論文の概要: AgentShield: Deception-based Compromise Detection for Tool-using LLM Agents
- arxiv url: http://arxiv.org/abs/2605.11026v1
- Date: Sun, 10 May 2026 20:08:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.313402
- Title: AgentShield: Deception-based Compromise Detection for Tool-using LLM Agents
- Title(参考訳): AgentShield: ツールを用いたLLMエージェントの認識に基づく妥協検出
- Authors: Yassin H. Rassul, Tarik A. Rashid,
- Abstract要約: AgentShieldは詐欺ベースの検出フレームワークである。
エージェントのツールインターフェース内に3つのトラップ層を配置する。
攻撃の成功率は90.7%-100%で、485の正常使用試験では誤報はゼロである。
- 参考スコア(独自算出の注目度): 4.36595961990666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Defenses against indirect prompt injection (IPI) in tool-using LLM agents share two structural weaknesses. First, they all attempt to prevent attacks rather than detect the compromises that slip through. Second, they have only been evaluated in English, leaving users of low-resource languages such as Kurdish and Arabic without tested protection. This paper addresses both gaps with AgentShield, a deception-based detection framework that places three layers of traps inside the agent's tool interface: fake tools, fake credentials, and allowlisted parameters. The same trap triggers serve as high-precision labels for a self-supervised classifier. An LLM agent that follows an attacker's hidden instruction almost always touches one of these traps, which gives both a real-time compromise signal and a zero-FP label for training a downstream detector without manual annotation. Across 176 cross-lingual attack prompts and four LLMs from three providers, and because modern LLMs already refuse most IPI attempts on their own (attack success rate <= 10%), AgentShield's job is to catch the attacks that do slip through. On commercial models, it catches 90.7%-100% of such successful attacks, with zero false alarms on 485 normal-use tests. It survives a systematic adaptive-attack evaluation with zero evasion on commercial models, and the self-supervised classifier transfers across models and languages without retraining.
- Abstract(参考訳): ツール使用LLMエージェントにおける間接的プロンプトインジェクション(IPI)に対する防御は2つの構造的弱点を共有している。
まず、彼らは全員、突破する妥協を検知するのではなく、攻撃を防ごうとします。
第二に、これらの言語は英語でのみ評価されており、クルド語やアラビア語などの低リソース言語の利用者は、テストされた保護を受けていない。
本稿では,エージェントのツールインターフェース内に3つのトラップ層(偽のツール,偽の認証情報,許容可能なパラメータ)を配置する,偽装ベースの検出フレームワークであるAgentShieldとのギャップに対処する。
同じトラップトリガーは、自己教師型分類器の高精度ラベルとして機能する。
攻撃者の隠れた命令に従うLLMエージェントは、ほぼ常にこれらのトラップの1つに触れ、手動のアノテーションなしで下流検出器をトレーニングするためのリアルタイム妥協信号とゼロFPラベルの両方を与える。
176以上の言語横断攻撃プロンプトと3つのプロバイダからの4つのLSM、そして現代のLSMは自力でほとんどのIPIの試みを拒否している(アタック成功率=10%)ため、エージェントシエルドの仕事は、スリップする攻撃をキャッチすることである。
商業モデルでは、90.7%-100%の攻撃が成功し、485の正常使用試験では誤報はゼロである。
商業モデルの回避をゼロとし、体系的な適応攻撃評価を継続し、自己教師型分類器は再訓練なしにモデルや言語間で転送する。
関連論文リスト
- Conjunctive Prompt Attacks in Multi-Agent LLM Systems [16.735743806437487]
エージェント間ルーティングは、単一エージェント評価が見逃すアタックサーフェスを生成する。
本研究では,ユーザクエリ内のトリガーキーと,不正なリモートエージェント内の隠れ対向テンプレートのそれぞれが単独でベニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグナグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグナグニグニグニグニ
論文 参考訳(メタデータ) (2026-04-17T02:31:09Z) - AttriGuard: Defeating Indirect Prompt Injection in LLM Agents via Causal Attribution of Tool Invocations [38.49666480491258]
LLMエージェントは間接プロンプト注入(IPI)に対して非常に脆弱である
本稿では,特定のツールコールが生成される理由を問うことでエージェントをセキュアにする,アクションレベルの因果属性という新しいパラダイムを提案する。
我々はこのパラダイムを、並列対実テストに基づくランタイムディフェンスであるAttriGuardでインスタンス化する。
論文 参考訳(メタデータ) (2026-03-11T13:23:46Z) - Visual Backdoor Attacks on MLLM Embodied Decision Making via Contrastive Trigger Learning [89.1856483797116]
MLLMをベースとした組込みエージェントに視覚的バックドアを注入する最初のフレームワークであるBEATを紹介する。
テキストトリガーとは異なり、オブジェクトトリガーは視点や照明の幅が広いため、確実に移植することは困難である。
BEATは攻撃の成功率を最大80%まで達成し、強い良識のあるタスクパフォーマンスを維持します。
論文 参考訳(メタデータ) (2025-10-31T16:50:49Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - Defending against Indirect Prompt Injection by Instruction Detection [109.30156975159561]
InstructDetectorは、LLMの動作状態を利用して潜在的なIPI攻撃を特定する、新しい検出ベースのアプローチである。
InstructDetectorは、ドメイン内設定で99.60%、ドメイン外設定で96.90%の検出精度を達成し、攻撃成功率をBIPIAベンチマークで0.03%に下げる。
論文 参考訳(メタデータ) (2025-05-08T13:04:45Z) - Fine-tuned Large Language Models (LLMs): Improved Prompt Injection Attacks Detection [6.269725911814401]
大きな言語モデル(LLM)は、幅広い言語ベースのタスクに対処する能力が大きく進歩しているため、人気ツールになりつつある。
しかし、LSMのアプリケーションはインジェクション攻撃に対して非常に脆弱であり、致命的な問題を引き起こす。
このプロジェクトでは,インジェクションのインジェクション攻撃に関連するセキュリティ脆弱性について検討する。
論文 参考訳(メタデータ) (2024-10-28T00:36:21Z) - AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。
我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。
主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文 参考訳(メタデータ) (2024-10-11T17:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。