論文の概要: AgentRedBench: Dynamic Redteaming and Integration-Aware Defense for LLM Agents over SaaS Integrations
- arxiv url: http://arxiv.org/abs/2606.02240v2
- Date: Tue, 02 Jun 2026 15:23:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 18:57:50.558248
- Title: AgentRedBench: Dynamic Redteaming and Integration-Aware Defense for LLM Agents over SaaS Integrations
- Title(参考訳): AgentRedBench: SaaS統合上のLLMエージェントのための動的リチームと統合対応ディフェンス
- Authors: Hiskias Dingeto, William Leeney,
- Abstract要約: ツール・ユース・エージェントへの間接的なプロンプト・インジェクションは、具体的な生産上の脅威である。
AgentREDBENCHは、215の微妙な未特定認可シナリオのベンチマークである。
AgentREDGUARDは、逆ツール-レスポンスコンテンツの統合多言語コーパスで訓練されたガードである。
- 参考スコア(独自算出の注目度): 0.0954904463032233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Indirect prompt injection in tool-use agents is a concrete production threat: LLM agents read from integrations (third-party services such as Gmail, Salesforce, or Jira accessed through tool calls) whose response content the user neither writes nor controls. Existing benchmarks under-measure the threat: most cover only a handful of integrations with the same attack payload replayed across runs, and open-source guards are trained on chat-style data rather than tool-response content. We introduce AGENTREDBENCH, a dynamic LLM-driven redteaming benchmark of 215 subtle underspecified authorization (attacks at the boundary of what the user's request authorises) scenarios across 24 enterprise integrations in nine functional families and five attack types. Across an eight-model panel (Anthropic, OpenAI, Google), no-guard ASR (attack success rate) ranges from 32% (Claude Sonnet 4.6) to 81% (Gemini 3 Flash). To keep the scenario set out of training corpora and preserve headline ASR meaning over time, we release the codebase, integration schemas, and AGENTREDGUARD model openly; the canonical scenarios are evaluated through a maintainer-mediated channel with immutable versioning. We release AGENTREDGUARD alongside the benchmark: a guard trained on an integration-diverse corpus of adversarial tool-response content. AGENTREDGUARD cuts panel ASR from 69.9% to 2.4% at 0.37% false-positive rate, outperforming every open-source baseline with non-trivial detection (Llama Guard, PromptGuard 2, ProtectAI) on both axes. Cross-integration and cross-attack type holdouts both confirm the gain transfers beyond the training subset.
- Abstract(参考訳): LLMエージェントは統合(Gmail、Salesforce、Jiraなどのサードパーティサービスがツールコールを通じてアクセスする)から読み込み、応答内容は書き込みも制御もしない。
既存のベンチマークでは、脅威を計測している。ほとんどの場合、実行中に同じ攻撃ペイロードをリプレイする少数の統合のみをカバーし、オープンソースのガードは、ツール対応のコンテンツではなく、チャットスタイルのデータでトレーニングされる。
AgentREDBENCHは、9つの機能ファミリーと5つの攻撃タイプで24のエンタープライズインテグレーションにまたがって、215の微妙な不特定認可(ユーザの要求が許す境界における攻撃)の動的LLM駆動のリピートベンチマークである。
8モデルパネル(Anthropic、OpenAI、Google)全体では、非ガードのASR(攻撃成功率)は32%(Claude Sonnet 4.6)から81%(Gemini 3 Flash)である。
コーパスをトレーニングして、ヘッドラインASRの意味を時間とともに保持するために、コードベース、統合スキーマ、 AgentREDGUARD モデルをオープンにリリースします。
我々は、AgentREDGUARDをベンチマークと一緒にリリースする: 逆ツール応答コンテンツの統合多言語コーパスで訓練されたガード。
AgentREDGUARDはパネルASRを69.9%から2.4%に削減し、0.37%の偽陽性率で、非自明な検出(Llama Guard、PromptGuard 2、ProtectAI)で全てのオープンソースベースラインを上回っている。
クロスインテグレーションとクロスアタックタイプのホールドアウトはどちらも、トレーニングサブセットを超えたゲイン転送を確認します。
関連論文リスト
- Semantic Intent Fragmentation: A Single-Shot Compositional Attack on Multi-Agent AI Pipelines [0.9772267314090434]
LLMオーケストレーションシステムに対する攻撃クラスとして,SIF(Semantic Intent Fragmentation)を導入する。
SIFは、バルクスコープ、サイレントデータ抽出、組み込みトリガデプロイメント、擬似識別アグリゲーションの4つのメカニズムを利用する。
GPT-20Bオーケストレータは71%のケースでポリシー違反の計画を作成し、各サブタスクは良心的に見える。
論文 参考訳(メタデータ) (2026-04-08T18:19:03Z) - ClawsBench: Evaluating Capability and Safety of LLM Productivity Agents in Simulated Workspaces [17.202580606345666]
生産性タスクを自動化するために、大規模言語モデル(LLM)エージェントがますますデプロイされる。
既存のベンチマークは単純化された環境に依存しており、現実的なマルチサービス環境をキャプチャできない。
我々は,現実的な生産性設定におけるLCMエージェントの評価と改善のためのベンチマークであるClawsBenchを紹介する。
論文 参考訳(メタデータ) (2026-04-06T21:09:06Z) - BackdoorAgent: A Unified Framework for Backdoor Attacks on LLM-based Agents [58.83028403414688]
大規模言語モデル(LLM)エージェントは、計画、メモリ、ツールの使用を組み合わせた多段階ワークフローを通じてタスクを実行する。
エージェントワークフローの特定のステージに注入されたバックドアトリガーは、複数の中間状態を通して持続し、下流出力に悪影響を及ぼす可能性がある。
LLMエージェントにおけるバックドア脅威を統一したエージェント中心のビューを提供するモジュールおよびステージアウェアフレームワークである textbfBackdoorAgent を提案する。
論文 参考訳(メタデータ) (2026-01-08T03:49:39Z) - Breaking the Code: Security Assessment of AI Code Agents Through Systematic Jailbreaking Attacks [11.371490212283383]
コード対応の大規模言語モデル(LLM)エージェントはソフトウェア工学に組み込まれ、コードを読み、書き、実行することができる。
JAWS-BENCHは、3つのエスカレーションワークスペースにまたがるベンチマークであり、攻撃能力を反映している。
JAWS-0のプロンプトのみの条件下では、コードエージェントは平均して61%の攻撃を受けており、58%が有害、52%がパース、27%がエンドツーエンドで実行される。
論文 参考訳(メタデータ) (2025-10-01T18:38:20Z) - A Multi-Agent LLM Defense Pipeline Against Prompt Injection Attacks [1.1435139523855764]
本稿では,インジェクション攻撃をリアルタイムに検出・中和する新しいマルチエージェント・ディフェンス・フレームワークを提案する。
我々は2つの異なるアーキテクチャ、シーケンシャル・チェーン・オブ・エージェント・パイプラインと階層的コーディネータ・ベース・システムを用いてアプローチを評価した。
論文 参考訳(メタデータ) (2025-09-16T19:11:28Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。