論文の概要: Indirect Prompt Injections: Are Firewalls All You Need, or Stronger Benchmarks?
- arxiv url: http://arxiv.org/abs/2510.05244v1
- Date: Mon, 06 Oct 2025 18:09:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.934584
- Title: Indirect Prompt Injections: Are Firewalls All You Need, or Stronger Benchmarks?
- Title(参考訳): 間接的プロンプトインジェクション:ファイアウォールはすべて必要なのか、それともより強いベンチマークか?
- Authors: Rishika Bhagwatkar, Kevin Kasa, Abhay Puri, Gabriel Huang, Irina Rish, Graham W. Taylor, Krishnamurthy Dj Dvijotham, Alexandre Lacoste,
- Abstract要約: エージェントインタフェースにおけるシンプルでモジュール的で,モデルに依存しないディフェンスが,高ユーティリティで完全なセキュリティを実現することを示す。
ツール入力ファイアウォール(最小限のファイアウォール)とツール出力ファイアウォール(サニタイザ)の2つのファイアウォールをベースとしたディフェンスを採用している。
- 参考スコア(独自算出の注目度): 58.48689960350828
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agents are vulnerable to indirect prompt injection attacks, where malicious instructions embedded in external content or tool outputs cause unintended or harmful behavior. Inspired by the well-established concept of firewalls, we show that a simple, modular and model-agnostic defense operating at the agent--tool interface achieves perfect security (0% or the lowest possible attack success rate) with high utility (task success rate) across four public benchmarks: AgentDojo, Agent Security Bench, InjecAgent and tau-Bench, while achieving a state-of-the-art security-utility tradeoff compared to prior results. Specifically, we employ a defense based on two firewalls: a Tool-Input Firewall (Minimizer) and a Tool-Output Firewall (Sanitizer). Unlike prior complex approaches, this firewall defense makes minimal assumptions on the agent and can be deployed out-of-the-box, while maintaining strong performance without compromising utility. However, our analysis also reveals critical limitations in these existing benchmarks, including flawed success metrics, implementation bugs, and most importantly, weak attacks, hindering significant progress in the field. To foster more meaningful progress, we present targeted fixes to these issues for AgentDojo and Agent Security Bench while proposing best-practices for more robust benchmark design. Further, we demonstrate that although these firewalls push the state-of-the-art on existing benchmarks, it is still possible to bypass them in practice, underscoring the need to incorporate stronger attacks in security benchmarks. Overall, our work shows that existing agentic security benchmarks are easily saturated by a simple approach and highlights the need for stronger agentic security benchmarks with carefully chosen evaluation metrics and strong adaptive attacks.
- Abstract(参考訳): AIエージェントは間接的なインジェクション攻撃に対して脆弱であり、外部コンテンツやツールアウトプットに埋め込まれた悪意のある命令は意図しないあるいは有害な振る舞いを引き起こす。
ファイアウォールの概念から着想を得た結果,エージェントツールインターフェースにおけるシンプルでモジュール的でモデルに依存しない防御は,AgentDojo, Agent Security Bench, InjecAgent, Tau-Benchの4つの公開ベンチマークにおいて,完全なセキュリティ(0%ないしは最小の攻撃成功率)を実現し,従来よりも最先端のセキュリティユーティリティトレードオフを実現していることがわかった。
具体的には、ツール・インプット・ファイアウォール(Minimizer)とツール・アウトプット・ファイアウォール(Sanitizer)という、2つのファイアウォールに基づくディフェンスを採用しています。
従来の複雑なアプローチとは異なり、このファイアウォールディフェンスはエージェントに最小限の仮定をし、有効性を損なうことなく強力なパフォーマンスを維持しながら、最初からデプロイすることができる。
しかし、我々の分析では、成功基準の欠陥、実装のバグ、そして最も重要なのは、弱い攻撃など、既存のベンチマークの限界も明らかにしています。
より意味のある進歩を促進するため、より堅牢なベンチマーク設計のためのベストプラクティスを提案しながら、AgentDojoとAgent Security Benchのこれらの問題に対するターゲット修正を提示します。
さらに、これらのファイアウォールが既存のベンチマークに最先端を推し進めているが、セキュリティベンチマークに強力な攻撃を組み込む必要性を強調して、実際にそれらをバイパスすることは可能であることを実証する。
全体として、既存のエージェントセキュリティベンチマークは単純なアプローチで容易に飽和していることを示し、慎重に選択された評価指標と強力な適応攻撃を備えたエージェントセキュリティベンチマークの必要性を強調します。
関連論文リスト
- Spider-Sense: Intrinsic Risk Sensing for Efficient Agent Defense with Hierarchical Adaptive Screening [23.066685616914807]
効果的なエージェントセキュリティは、アーキテクチャ上の分離や強制よりも、本質的で選択的であるべきだ、と我々は主張する。
我々はスパイダーセンス・フレームワークを提案する。スパイダーセンス・フレームワークは、エージェントが潜伏警戒を維持し、リスク認識によってのみ防御をトリガーすることができる。
スパイダーセンスは、最低攻撃成功率(ASR)と偽陽性率(FPR)を達成して、競争力または優れた防御性能を達成する
論文 参考訳(メタデータ) (2026-02-05T07:11:05Z) - AgentDyn: A Dynamic Open-Ended Benchmark for Evaluating Prompt Injection Attacks of Real-World Agent Security System [44.50700894734539]
AgentDynは60の挑戦的なオープンエンドタスクと560のインジェクションテストケースを特徴とするベンチマークである。
以前の静的ベンチマークとは異なり、AgentDynは動的プランニングを必要とし、有用なサードパーティの命令を組み込む。
最先端の10つの防衛に関する我々の評価は、既存の防衛のほとんどすべてが十分に安全でないか、重大な過防衛に悩まされていることを示唆している。
論文 参考訳(メタデータ) (2026-02-03T05:20:42Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents [60.98294016925157]
AIエージェントは、悪意のあるコンテンツがエージェントの行動をハイジャックして認証情報を盗んだり、金銭的損失を引き起こすような、インジェクション攻撃に弱い。
CUAのためのシングルショットプランニングでは、信頼できるプランナーが、潜在的に悪意のあるコンテンツを観察する前に、条件付きブランチで完全な実行グラフを生成する。
このアーキテクチャ分離は命令インジェクションを効果的に防止するが、ブランチステアリング攻撃を防ぐには追加の対策が必要であることを示す。
論文 参考訳(メタデータ) (2026-01-14T23:06:35Z) - PromptSleuth: Detecting Prompt Injection via Semantic Intent Invariance [10.105673138616483]
大規模言語モデル(LLM)は、仮想アシスタントから自律エージェントに至るまで、現実のアプリケーションにますます統合されている。
攻撃者がパラフレーズ、難読化、マルチタスクのインジェクション戦略で進化するにつれて、既存のベンチマークは、出現する脅威の全スペクトルを捉えるのに十分ではない。
PromptSleuthは,表面的特徴ではなくタスクレベルの意図を推論することで,迅速なインジェクションを検出するセマンティック指向の防衛フレームワークである。
論文 参考訳(メタデータ) (2025-08-28T15:19:07Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - DoomArena: A framework for Testing AI Agents Against Evolving Security Threats [81.73540246946015]
本稿では,AIエージェントのセキュリティ評価フレームワークであるDoomArenaを紹介する。
プラグインフレームワークであり、現実的なエージェントフレームワークと簡単に統合できる。
モジュールであり、エージェントがデプロイされる環境の詳細から攻撃の開発を分離する。
論文 参考訳(メタデータ) (2025-04-18T20:36:10Z) - GenTel-Safe: A Unified Benchmark and Shielding Framework for Defending Against Prompt Injection Attacks [14.558728517191044]
我々は、GenTel-Shieldという新しいプロンプトインジェクション攻撃検出手法と総合評価ベンチマーク、GenTel-Benchを紹介する。
GenTel-Shieldの有効性を証明するため,GenTel-Benchデータセットに対するバニラ安全ガードレールと併用して評価を行った。
実証的に、GenTel-Shieldは最先端の攻撃検出成功率を達成することができる。
論文 参考訳(メタデータ) (2024-09-29T02:35:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。