論文の概要: AgentDyn: A Dynamic Open-Ended Benchmark for Evaluating Prompt Injection Attacks of Real-World Agent Security System
- arxiv url: http://arxiv.org/abs/2602.03117v1
- Date: Tue, 03 Feb 2026 05:20:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.258065
- Title: AgentDyn: A Dynamic Open-Ended Benchmark for Evaluating Prompt Injection Attacks of Real-World Agent Security System
- Title(参考訳): AgentDyn: リアルタイムエージェントセキュリティシステムのプロンプトインジェクション攻撃評価のための動的オープンエンドベンチマーク
- Authors: Hao Li, Ruoyao Wen, Shanghao Shi, Ning Zhang, Chaowei Xiao,
- Abstract要約: AgentDynは60の挑戦的なオープンエンドタスクと560のインジェクションテストケースを特徴とするベンチマークである。
以前の静的ベンチマークとは異なり、AgentDynは動的プランニングを必要とし、有用なサードパーティの命令を組み込む。
最先端の10つの防衛に関する我々の評価は、既存の防衛のほとんどすべてが十分に安全でないか、重大な過防衛に悩まされていることを示唆している。
- 参考スコア(独自算出の注目度): 44.50700894734539
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI agents that autonomously interact with external tools and environments show great promise across real-world applications. However, the external data which agent consumes also leads to the risk of indirect prompt injection attacks, where malicious instructions embedded in third-party content hijack agent behavior. Guided by benchmarks, such as AgentDojo, there has been significant amount of progress in developing defense against the said attacks. As the technology continues to mature, and that agents are increasingly being relied upon for more complex tasks, there is increasing pressing need to also evolve the benchmark to reflect threat landscape faced by emerging agentic systems. In this work, we reveal three fundamental flaws in current benchmarks and push the frontier along these dimensions: (i) lack of dynamic open-ended tasks, (ii) lack of helpful instructions, and (iii) simplistic user tasks. To bridge this gap, we introduce AgentDyn, a manually designed benchmark featuring 60 challenging open-ended tasks and 560 injection test cases across Shopping, GitHub, and Daily Life. Unlike prior static benchmarks, AgentDyn requires dynamic planning and incorporates helpful third-party instructions. Our evaluation of ten state-of-the-art defenses suggests that almost all existing defenses are either not secure enough or suffer from significant over-defense, revealing that existing defenses are still far from real-world deployment. Our benchmark is available at https://github.com/leolee99/AgentDyn.
- Abstract(参考訳): 外部のツールや環境と自律的に対話するAIエージェントは、現実世界のアプリケーション間で大きな可能性を秘めている。
しかし、エージェントが消費する外部データもまた間接的なインジェクション攻撃のリスクを招き、悪意のある命令がサードパーティーのコンテンツハイジャックエージェントの動作に埋め込まれる。
AgentDojoのようなベンチマークによってガイドされたこの攻撃に対する防御の開発には、かなりの進歩があった。
テクノロジーが成熟し続けており、エージェントがより複雑なタスクに頼りやすくなっているため、新たなエージェントシステムによって直面する脅威の景観を反映するベンチマークを進化させる必要性が高まっている。
本稿では、現在のベンチマークに3つの根本的な欠陥を明らかにし、これらの側面に沿ってフロンティアを推し進める。
(i)動的なオープンエンドタスクの欠如。
(二)有能な指示の欠如、及び
(iii)単純化されたユーザタスク。
このギャップを埋めるために、AgentDynという手動設計のベンチマークを紹介した。これは、60の挑戦的なオープンエンドタスクと、Shopping、GitHub、Daily Lifeにまたがる560のインジェクションテストケースを特徴とする。
以前の静的ベンチマークとは異なり、AgentDynは動的プランニングを必要とし、有用なサードパーティの命令を組み込む。
最先端の10の防衛に関する我々の評価は、既存の防衛のほとんどが十分に安全でないか、重大な過防衛に苦しむかのどちらかであり、既存の防衛がまだ現実世界の配備から程遠いことを示唆している。
私たちのベンチマークはhttps://github.com/leolee99/AgentDyn.orgで公開されています。
関連論文リスト
- ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - BrowseSafe: Understanding and Preventing Prompt Injection Within AI Browser Agents [8.923854146974783]
本稿では,実際のHTMLペイロードに埋め込まれた攻撃のベンチマークを合成し,インジェクション攻撃の現場を考察する。
私たちのベンチマークは、単なるテキスト出力ではなく、現実世界のアクションに影響を与えるインジェクションを強調することで、以前の作業を超えています。
アーキテクチャとモデルに基づく防御を両立する多層防衛戦略を提案する。
論文 参考訳(メタデータ) (2025-11-25T18:28:35Z) - Indirect Prompt Injections: Are Firewalls All You Need, or Stronger Benchmarks? [58.48689960350828]
エージェントインタフェースにおけるシンプルでモジュール的で,モデルに依存しないディフェンスが,高ユーティリティで完全なセキュリティを実現することを示す。
ツール入力ファイアウォール(最小限のファイアウォール)とツール出力ファイアウォール(サニタイザ)の2つのファイアウォールをベースとしたディフェンスを採用している。
論文 参考訳(メタデータ) (2025-10-06T18:09:02Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - AgentDojo: A Dynamic Environment to Evaluate Prompt Injection Attacks and Defenses for LLM Agents [27.701301913159067]
我々は、信頼できないデータ上でツールを実行するエージェントの評価フレームワークであるAgentDojoを紹介した。
AgentDojoは静的テストスイートではなく、新しいエージェントタスク、ディフェンス、アダプティブアタックを設計、評価するための環境である。
AgentDojoには97の現実的なタスク、629のセキュリティテストケースと、文献からのさまざまな攻撃および防御パラダイムが組み込まれています。
論文 参考訳(メタデータ) (2024-06-19T08:55:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。