論文の概要: Penetration Testing of Agentic AI: A Comparative Security Analysis Across Models and Frameworks
- arxiv url: http://arxiv.org/abs/2512.14860v1
- Date: Tue, 16 Dec 2025 19:22:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.763329
- Title: Penetration Testing of Agentic AI: A Comparative Security Analysis Across Models and Frameworks
- Title(参考訳): エージェントAIの浸透テスト:モデルとフレームワーク間の比較セキュリティ分析
- Authors: Viet K. Nguyen, Mohammad I. Husain,
- Abstract要約: Agentic AIは、従来のLLMセーフガードが対処できないセキュリティ脆弱性を導入する。
エージェントAIシステムの最初の体系的テストと比較評価を行う。
新たな「ハロシントコンプライアンス」戦略を含む6つの防衛行動パターンを同定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agentic AI introduces security vulnerabilities that traditional LLM safeguards fail to address. Although recent work by Unit 42 at Palo Alto Networks demonstrated that ChatGPT-4o successfully executes attacks as an agent that it refuses in chat mode, there is no comparative analysis in multiple models and frameworks. We conducted the first systematic penetration testing and comparative evaluation of agentic AI systems, testing five prominent models (Claude 3.5 Sonnet, Gemini 2.5 Flash, GPT-4o, Grok 2, and Nova Pro) across two agentic AI frameworks (AutoGen and CrewAI) using a seven-agent architecture that mimics the functionality of a university information management system and 13 distinct attack scenarios that span prompt injection, Server Side Request Forgery (SSRF), SQL injection, and tool misuse. Our 130 total test cases reveal significant security disparities: AutoGen demonstrates a 52.3% refusal rate versus CrewAI's 30.8%, while model performance ranges from Nova Pro's 46.2% to Claude and Grok 2's 38.5%. Most critically, Grok 2 on CrewAI rejected only 2 of 13 attacks (15.4% refusal rate), and the overall refusal rate of 41.5% across all configurations indicates that more than half of malicious prompts succeeded despite enterprise-grade safety mechanisms. We identify six distinct defensive behavior patterns including a novel "hallucinated compliance" strategy where models fabricate outputs rather than executing or refusing attacks, and provide actionable recommendations for secure agent deployment. Complete attack prompts are also included in the Appendix to enable reproducibility.
- Abstract(参考訳): Agentic AIは、従来のLLMセーフガードが対処できないセキュリティ脆弱性を導入する。
Palo Alto NetworksのUnit 42による最近の研究は、チャットモードで拒否するエージェントとしてChatGPT-4oが攻撃をうまく実行することを示したが、複数のモデルやフレームワークで比較分析は行われていない。
我々は,2つのエージェントAIフレームワーク(AutoGenとCrewAI)に対して,大学情報管理システムの機能を模倣した7エージェントアーキテクチャと,即時インジェクション,サーバサイドリクエストフォージェリ(SSRF),SQLインジェクション,ツール誤用を含む13の異なるアタックシナリオを用いて,エージェントAIシステムの最初の体系的侵入テストと比較評価を行い,その5つの重要なモデル(Claude 3.5 Sonnet,Gemini 2.5 Flash,GPT-4o,Grok 2,Nova Pro)をテストした。
AutoGenはCrewAIの30.8%に対して52.3%の拒絶率を示し、モデルパフォーマンスはNova Proの46.2%からClaudeとGrok 2の38.5%まで様々である。
最も重要な点として、CrewAIのGrok 2は13の攻撃のうち2つしか拒否せず(15.4%の拒絶率)、全構成で41.5%の拒絶率は、エンタープライズグレードの安全メカニズムにもかかわらず、悪意のあるプロンプトの半分以上が成功したことを示している。
モデルが攻撃の実行や拒否ではなくアウトプットを製造し、安全なエージェント配置のためのアクション可能なレコメンデーションを提供する、新しい「ハロクラシエーション」戦略を含む6つの異なる防御行動パターンを識別する。
完全なアタックプロンプトもAppendixに含まれており、再現性を実現している。
関連論文リスト
- Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Securing AI Agents Against Prompt Injection Attacks [0.0]
本稿では,RAG対応AIエージェントのインジェクションリスク評価のためのベンチマークを提案する。
本フレームワークは,攻撃速度を73.2%から8.7%に削減し,94.3%のベースラインタスク性能を維持した。
論文 参考訳(メタデータ) (2025-11-19T10:00:54Z) - Security Challenges in AI Agent Deployment: Insights from a Large Scale Public Competition [101.86739402748995]
44の現実的なデプロイメントシナリオを対象とした,22のフロンティアAIエージェントを対象にしています。
Agent Red Teamingベンチマークを構築し、19の最先端モデルで評価します。
私たちの発見は、今日のAIエージェントの重要かつ永続的な脆弱性を浮き彫りにしたものです。
論文 参考訳(メタデータ) (2025-07-28T05:13:04Z) - The Dark Side of LLMs: Agent-based Attacks for Complete Computer Takeover [0.0]
大規模言語モデル(LLM)エージェントとマルチエージェントシステムは、従来のコンテンツ生成からシステムレベルの妥協まで及ぶセキュリティ脆弱性を導入している。
本稿では,自律エージェント内の推論エンジンとして使用されるLLMのセキュリティを総合的に評価する。
異なる攻撃面と信頼境界がどのように活用され、そのような乗っ取りを組織化できるかを示す。
論文 参考訳(メタデータ) (2025-07-09T13:54:58Z) - Let the Trial Begin: A Mock-Court Approach to Vulnerability Detection using LLM-Based Agents [10.378745306569053]
VulTrialは、自動脆弱性検出を強化するために設計された法廷インスパイアされたフレームワークである。
セキュリティ研究者、コード作者、モデレーター、レビューボードの4つの役割専門エージェントを雇用している。
GPT-3.5とGPT-4oを使用して、VulTrialはそれぞれのベースラインに対して102.39%、84.17%の性能を向上させる。
論文 参考訳(メタデータ) (2025-05-16T07:54:10Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。