論文の概要: Security Challenges in AI Agent Deployment: Insights from a Large Scale Public Competition
- arxiv url: http://arxiv.org/abs/2507.20526v1
- Date: Mon, 28 Jul 2025 05:13:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.864783
- Title: Security Challenges in AI Agent Deployment: Insights from a Large Scale Public Competition
- Title(参考訳): AIエージェントのデプロイにおけるセキュリティ上の課題 - 大規模な公開コンペからの洞察
- Authors: Andy Zou, Maxwell Lin, Eliot Jones, Micha Nowak, Mateusz Dziemian, Nick Winter, Alexander Grattan, Valent Nathanael, Ayla Croft, Xander Davies, Jai Patel, Robert Kirk, Nate Burnikell, Yarin Gal, Dan Hendrycks, J. Zico Kolter, Matt Fredrikson,
- Abstract要約: 44の現実的なデプロイメントシナリオを対象とした,22のフロンティアAIエージェントを対象にしています。
Agent Red Teamingベンチマークを構築し、19の最先端モデルで評価します。
私たちの発見は、今日のAIエージェントの重要かつ永続的な脆弱性を浮き彫りにしたものです。
- 参考スコア(独自算出の注目度): 101.86739402748995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances have enabled LLM-powered AI agents to autonomously execute complex tasks by combining language model reasoning with tools, memory, and web access. But can these systems be trusted to follow deployment policies in realistic environments, especially under attack? To investigate, we ran the largest public red-teaming competition to date, targeting 22 frontier AI agents across 44 realistic deployment scenarios. Participants submitted 1.8 million prompt-injection attacks, with over 60,000 successfully eliciting policy violations such as unauthorized data access, illicit financial actions, and regulatory noncompliance. We use these results to build the Agent Red Teaming (ART) benchmark - a curated set of high-impact attacks - and evaluate it across 19 state-of-the-art models. Nearly all agents exhibit policy violations for most behaviors within 10-100 queries, with high attack transferability across models and tasks. Importantly, we find limited correlation between agent robustness and model size, capability, or inference-time compute, suggesting that additional defenses are needed against adversarial misuse. Our findings highlight critical and persistent vulnerabilities in today's AI agents. By releasing the ART benchmark and accompanying evaluation framework, we aim to support more rigorous security assessment and drive progress toward safer agent deployment.
- Abstract(参考訳): 近年の進歩により、LLMを利用するAIエージェントは、言語モデル推論とツール、メモリ、Webアクセスを組み合わせることで、複雑なタスクを自律的に実行できるようになった。
しかし、これらのシステムは、特に攻撃中の現実的な環境でのデプロイメントポリシーに従うことが信頼できますか?
調査のため、44の現実的なデプロイメントシナリオにわたる22のフロンティアAIエージェントを対象として、これまでで最大のパブリックな再チームのコンペを開催しました。
参加者は180万件のインジェクション攻撃を提出し、6万件以上が無許可のデータアクセス、不正な金融行動、規制違反などのポリシー違反の引き渡しに成功している。
これらの結果を使って、Agent Red Teaming(ART)ベンチマーク(ハイインパクトアタックのキュレートされたセット)を構築し、19の最先端モデルで評価します。
ほぼすべてのエージェントが10~100クエリ内のほとんどの動作に対してポリシー違反を示しており、モデルやタスク間の攻撃伝達性が高い。
重要なことは、エージェントの堅牢性とモデルサイズ、能力、または推論時間との相関が限定されていることであり、敵の誤用に対する追加の防御が必要であることを示唆している。
私たちの発見は、今日のAIエージェントの重要かつ永続的な脆弱性を浮き彫りにしたものです。
ARTベンチマークとそれに伴う評価フレームワークをリリースすることにより、より厳格なセキュリティアセスメントをサポートし、より安全なエージェントデプロイメントに向けた進捗を促進することを目指している。
関連論文リスト
- The Dark Side of LLMs Agent-based Attacks for Complete Computer Takeover [0.18472148461613155]
本稿では,Large Language Model (LLM) エージェントを攻撃ベクトルとして包括的に評価する。
敵は3つの異なる攻撃面(ダイレクト・プロンプト・インジェクション、RAGバックドア・アタック、エージェント間信頼利用)を利用できることを示す。
その結果,全攻撃ベクトルに対する耐性は5.9%に過ぎなかった。
論文 参考訳(メタデータ) (2025-07-09T13:54:58Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - WASP: Benchmarking Web Agent Security Against Prompt Injection Attacks [36.97842000562324]
我々は、Pmptインジェクション攻撃に対するWeb Agent Securityのエンドツーエンド評価のための新しいベンチマークであるWASPを紹介する。
高度な推論能力を含むトップレベルのAIモデルでさえ、単純で低便なヒューマンインジェクションによって騙される可能性があることを示す。
攻撃は最大86%で部分的には成功したが、最先端のエージェントでさえ、攻撃者の目標を完全に満たすのに苦労することが多い。
論文 参考訳(メタデータ) (2025-04-22T17:51:03Z) - AdvAgent: Controllable Blackbox Red-teaming on Web Agents [22.682464365220916]
AdvAgentは、Webエージェントを攻撃するためのブラックボックスのレッドチームフレームワークである。
強化学習に基づくパイプラインを使用して、敵のプロンプトモデルをトレーニングする。
慎重な攻撃設計では、エージェントの弱点を効果的に活用し、ステルス性と制御性を維持する。
論文 参考訳(メタデータ) (2024-10-22T20:18:26Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。