論文の概要: DecodingTrust-Agent Platform (DTap): A Controllable and Interactive Red-Teaming Platform for AI Agents
- arxiv url: http://arxiv.org/abs/2605.04808v1
- Date: Wed, 06 May 2026 11:59:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-07 18:41:07.800867
- Title: DecodingTrust-Agent Platform (DTap): A Controllable and Interactive Red-Teaming Platform for AI Agents
- Title(参考訳): DecodingTrust-Agent Platform (DTap):AIエージェントのためのコントロール可能でインタラクティブなレッドチームプラットフォーム
- Authors: Zhaorun Chen, Xun Liu, Haibo Tong, Chengquan Guo, Yuzhou Nie, Jiawei Zhang, Mintong Kang, Chejian Xu, Qichang Liu, Xiaogeng Liu, Tianneng Shi, Chaowei Xiao, Sanmi Koyejo, Percy Liang, Wenbo Guo, Dawn Song, Bo Li,
- Abstract要約: DecodingTrust-Agent Platform (DTap)は、AIエージェントのためのコントロール可能でインタラクティブなレッドチームプラットフォームである。
DTap-Redは、多様なインジェクションベクターを探索し、効果的な攻撃戦略を自律的に発見する、最初の自律的赤チームエージェントである。
DTapを通じて、さまざまなバックボーンモデル上に構築された一般的なAIエージェントの大規模評価を行う。
- 参考スコア(独自算出の注目度): 121.77550256034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI agents are increasingly deployed across diverse domains to automate complex workflows through long-horizon and high-stakes action executions. Due to their high capability and flexibility, such agents raise significant security and safety concerns. A growing number of real-world incidents have shown that adversaries can easily manipulate agents into performing harmful actions, such as leaking API keys, deleting user data, or initiating unauthorized transactions. Evaluating agent security is inherently challenging, as agents operate in dynamic, untrusted environments involving external tools, heterogeneous data sources, and frequent user interactions. However, realistic, controllable, and reproducible environments for large-scale risk assessment remain largely underexplored. To address this gap, we introduce the DecodingTrust-Agent Platform (DTap), the first controllable and interactive red-teaming platform for AI agents, spanning 14 real-world domains and over 50 simulation environments that replicate widely used systems such as Google Workspace, Paypal, and Slack. To scale the risk assessment of agents in DTap, we further propose DTap-Red, the first autonomous red-teaming agent that systematically explores diverse injection vectors (e.g., prompt, tool, skill, environment, combinations) and autonomously discovers effective attack strategies tailored to varying malicious goals. Using DTap-Red, we curate DTap-Bench, a large-scale red-teaming dataset comprising high-quality instances across domains, each paired with a verifiable judge to automatically validate attack outcomes. Through DTap, we conduct large-scale evaluations of popular AI agents built on various backbone models, spanning security policies, risk categories, and attack strategies, revealing systematic vulnerability patterns and providing valuable insights for developing secure next-generation agents.
- Abstract(参考訳): AIエージェントは、多種多様なドメインにまたがって展開され、長い水平かつ高いアクション実行を通じて複雑なワークフローを自動化する。
高い能力と柔軟性のため、これらのエージェントは重大なセキュリティと安全性の懸念を引き起こす。
現実のインシデントが増えていることから、APIキーの漏洩、ユーザデータの削除、不正なトランザクションの開始といった有害なアクションの実行に、敵が簡単にエージェントを操作できることが示されている。
エージェントが外部ツール、異種データソース、頻繁なユーザインタラクションを含む、動的で信頼できない環境で運用されているため、エージェントのセキュリティを評価することは本質的に難しい。
しかし、大規模なリスク評価のための現実的で、制御可能で、再現可能な環境は、いまだに過小評価されていない。
このギャップに対処するために、DecodingTrust-Agent Platform (DTap)を紹介します。これは、AIエージェントのための、初めて制御可能でインタラクティブな赤チームプラットフォームで、14の現実世界のドメインと、Google Workspace、Paypal、Slackといった広く使用されているシステムを再現する50以上のシミュレーション環境にまたがる。
さらに,DTapにおけるエージェントのリスク評価をスケールするために,多様なインジェクションベクター(例えば,プロンプト,ツール,スキル,環境,組み合わせ)を体系的に探索し,様々な悪意のある目標に合わせた効果的な攻撃戦略を自律的に発見する,最初の自律的リピートエージェントDTap-Redを提案する。
DTap-Redを使って、ドメイン間の高品質なインスタンスで構成される大規模なレッドチームデータセットDTap-Benchをキュレートし、それぞれが検証可能な判断器と組み合わせて、攻撃結果を自動的に検証する。
DTapを通じて、さまざまなバックボーンモデル上に構築された一般的なAIエージェントの大規模な評価を行い、セキュリティポリシー、リスクカテゴリ、攻撃戦略を分散し、体系的な脆弱性パターンを明らかにし、セキュアな次世代エージェントを開発する上で貴重な洞察を提供する。
関連論文リスト
- OMNI-LEAK: Orchestrator Multi-Agent Network Induced Data Leakage [59.3826294523924]
オーケストレータ設定として知られる,一般的なマルチエージェントパターンのセキュリティ脆弱性について検討する。
本報告では,フロンティアモデルの攻撃カテゴリに対する感受性を報告し,推論モデルと非推論モデルの両方が脆弱であることが確認された。
論文 参考訳(メタデータ) (2026-02-13T21:32:32Z) - Towards Unifying Quantitative Security Benchmarking for Multi Agent Systems [0.0]
AIシステムの進化 自律エージェントが協力し、情報を共有し、プロトコルを開発することでタスクを委譲するマルチエージェントアーキテクチャをますます展開する。
そのようなリスクの1つはカスケードリスクである。あるエージェントの侵入はシステムを通してカスケードし、エージェント間の信頼を利用して他人を妥協させる。
ACI攻撃では、あるエージェントに悪意のあるインプットまたはツールエクスプロイトが注入され、そのアウトプットを信頼するエージェント間でカスケードの妥協とダウンストリーム効果が増幅される。
論文 参考訳(メタデータ) (2025-07-23T13:51:28Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - SafeMobile: Chain-level Jailbreak Detection and Automated Evaluation for Multimodal Mobile Agents [58.21223208538351]
本研究は,モバイルマルチモーダルエージェントを取り巻くセキュリティ問題について考察する。
行動シーケンス情報を組み込んだリスク識別機構の構築を試みる。
また、大規模言語モデルに基づく自動アセスメントスキームも設計している。
論文 参考訳(メタデータ) (2025-07-01T15:10:00Z) - SafeAgent: Safeguarding LLM Agents via an Automated Risk Simulator [77.86600052899156]
LLM(Large Language Model)ベースのエージェントは、現実のアプリケーションにますますデプロイされる。
完全自動合成データ生成によるエージェント安全性を体系的に向上する最初のフレームワークであるAutoSafeを提案する。
AutoSafeは安全性のスコアを平均で45%向上させ、現実世界のタスクでは28.91%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-23T10:56:06Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - AdvAgent: Controllable Blackbox Red-teaming on Web Agents [22.682464365220916]
AdvAgentは、Webエージェントを攻撃するためのブラックボックスのレッドチームフレームワークである。
強化学習に基づくパイプラインを使用して、敵のプロンプトモデルをトレーニングする。
慎重な攻撃設計では、エージェントの弱点を効果的に活用し、ステルス性と制御性を維持する。
論文 参考訳(メタデータ) (2024-10-22T20:18:26Z) - Breaking Agents: Compromising Autonomous LLM Agents Through Malfunction Amplification [35.16099878559559]
大規模言語モデル(LLM)は大きな発展を遂げ、現実世界のアプリケーションにデプロイされている。
エージェントが繰り返しまたは無関係なアクションを実行することを誤解させることで誤動作を引き起こす新しいタイプの攻撃を導入する。
実験の結果、これらの攻撃は複数のシナリオで80%以上の障害率を誘導できることがわかった。
論文 参考訳(メタデータ) (2024-07-30T14:35:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。