論文の概要: Penetration Testing of Agentic AI: A Comparative Security Analysis Across Models and Frameworks
- arxiv url: http://arxiv.org/abs/2512.14860v1
- Date: Tue, 16 Dec 2025 19:22:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.763329
- Title: Penetration Testing of Agentic AI: A Comparative Security Analysis Across Models and Frameworks
- Title(参考訳): エージェントAIの浸透テスト:モデルとフレームワーク間の比較セキュリティ分析
- Authors: Viet K. Nguyen, Mohammad I. Husain,
- Abstract要約: Agentic AIは、従来のLLMセーフガードが対処できないセキュリティ脆弱性を導入する。
エージェントAIシステムの最初の体系的テストと比較評価を行う。
新たな「ハロシントコンプライアンス」戦略を含む6つの防衛行動パターンを同定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agentic AI introduces security vulnerabilities that traditional LLM safeguards fail to address. Although recent work by Unit 42 at Palo Alto Networks demonstrated that ChatGPT-4o successfully executes attacks as an agent that it refuses in chat mode, there is no comparative analysis in multiple models and frameworks. We conducted the first systematic penetration testing and comparative evaluation of agentic AI systems, testing five prominent models (Claude 3.5 Sonnet, Gemini 2.5 Flash, GPT-4o, Grok 2, and Nova Pro) across two agentic AI frameworks (AutoGen and CrewAI) using a seven-agent architecture that mimics the functionality of a university information management system and 13 distinct attack scenarios that span prompt injection, Server Side Request Forgery (SSRF), SQL injection, and tool misuse. Our 130 total test cases reveal significant security disparities: AutoGen demonstrates a 52.3% refusal rate versus CrewAI's 30.8%, while model performance ranges from Nova Pro's 46.2% to Claude and Grok 2's 38.5%. Most critically, Grok 2 on CrewAI rejected only 2 of 13 attacks (15.4% refusal rate), and the overall refusal rate of 41.5% across all configurations indicates that more than half of malicious prompts succeeded despite enterprise-grade safety mechanisms. We identify six distinct defensive behavior patterns including a novel "hallucinated compliance" strategy where models fabricate outputs rather than executing or refusing attacks, and provide actionable recommendations for secure agent deployment. Complete attack prompts are also included in the Appendix to enable reproducibility.
- Abstract(参考訳): Agentic AIは、従来のLLMセーフガードが対処できないセキュリティ脆弱性を導入する。
Palo Alto NetworksのUnit 42による最近の研究は、チャットモードで拒否するエージェントとしてChatGPT-4oが攻撃をうまく実行することを示したが、複数のモデルやフレームワークで比較分析は行われていない。
我々は,2つのエージェントAIフレームワーク(AutoGenとCrewAI)に対して,大学情報管理システムの機能を模倣した7エージェントアーキテクチャと,即時インジェクション,サーバサイドリクエストフォージェリ(SSRF),SQLインジェクション,ツール誤用を含む13の異なるアタックシナリオを用いて,エージェントAIシステムの最初の体系的侵入テストと比較評価を行い,その5つの重要なモデル(Claude 3.5 Sonnet,Gemini 2.5 Flash,GPT-4o,Grok 2,Nova Pro)をテストした。
AutoGenはCrewAIの30.8%に対して52.3%の拒絶率を示し、モデルパフォーマンスはNova Proの46.2%からClaudeとGrok 2の38.5%まで様々である。
最も重要な点として、CrewAIのGrok 2は13の攻撃のうち2つしか拒否せず(15.4%の拒絶率)、全構成で41.5%の拒絶率は、エンタープライズグレードの安全メカニズムにもかかわらず、悪意のあるプロンプトの半分以上が成功したことを示している。
モデルが攻撃の実行や拒否ではなくアウトプットを製造し、安全なエージェント配置のためのアクション可能なレコメンデーションを提供する、新しい「ハロクラシエーション」戦略を含む6つの異なる防御行動パターンを識別する。
完全なアタックプロンプトもAppendixに含まれており、再現性を実現している。
関連論文リスト
- ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - AI Security Beyond Core Domains: Resume Screening as a Case Study of Adversarial Vulnerabilities in Specialized LLM Applications [71.27518152526686]
大きな言語モデル(LLM)はテキストの理解と生成に優れており、コードレビューやコンテンツモデレーションといった自動タスクに最適である。
LLMは履歴書やコードなどの入力データに隠された「逆命令」で操作でき、意図したタスクから逸脱する。
本稿では,特定の攻撃タイプに対して80%以上の攻撃成功率を示すとともに,この脆弱性を再開スクリーニングで評価するためのベンチマークを提案する。
論文 参考訳(メタデータ) (2025-12-23T08:42:09Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Securing AI Agents Against Prompt Injection Attacks [0.0]
本稿では,RAG対応AIエージェントのインジェクションリスク評価のためのベンチマークを提案する。
本フレームワークは,攻撃速度を73.2%から8.7%に削減し,94.3%のベースラインタスク性能を維持した。
論文 参考訳(メタデータ) (2025-11-19T10:00:54Z) - Jailbreak Mimicry: Automated Discovery of Narrative-Based Jailbreaks for Large Language Models [0.0]
大規模言語モデル(LLM)は、高度な迅速なエンジニアリング攻撃に対して脆弱なままである。
我々は、物語ベースのジェイルブレイクプロンプトを自動生成するために、コンパクトアタッカーモデルを訓練するための体系的方法論であるジェイルブレイク・ミミミリを紹介する。
我々のアプローチは、敵の迅速な発見を手作業の職人技から再現可能な科学的プロセスに変換する。
論文 参考訳(メタデータ) (2025-10-24T23:53:16Z) - Safeguarding Efficacy in Large Language Models: Evaluating Resistance to Human-Written and Algorithmic Adversarial Prompts [0.0]
本稿では,敵対的攻撃ベクトルに対する大規模言語モデル(LLM)の体系的セキュリティ評価について述べる。
我々はPhi-2, Llama-2-7B-Chat, GPT-3.5-Turbo, GPT-4の4つの異なる攻撃カテゴリ(人書きプロンプト, AutoDAN, Greedy Coordinate Gradient (GCG), Tree-of-Attacks-with-pruning (TAP))を評価した。
論文 参考訳(メタデータ) (2025-10-12T21:48:34Z) - Security Challenges in AI Agent Deployment: Insights from a Large Scale Public Competition [101.86739402748995]
44の現実的なデプロイメントシナリオを対象とした,22のフロンティアAIエージェントを対象にしています。
Agent Red Teamingベンチマークを構築し、19の最先端モデルで評価します。
私たちの発見は、今日のAIエージェントの重要かつ永続的な脆弱性を浮き彫りにしたものです。
論文 参考訳(メタデータ) (2025-07-28T05:13:04Z) - When Developer Aid Becomes Security Debt: A Systematic Analysis of Insecure Behaviors in LLM Coding Agents [1.7587442088965226]
LLMベースのコーディングエージェントは、急速にソフトウェア開発にデプロイされているが、その安全性への影響はよく分かっていない。
我々は,5つの最先端モデルにわたる12,000以上のアクションを解析し,自律型符号化エージェントの最初の系統的安全性評価を行った。
我々は,4つの主要な脆弱性を識別する高精度検出システムを開発した。
論文 参考訳(メタデータ) (2025-07-12T16:11:07Z) - The Dark Side of LLMs: Agent-based Attacks for Complete Computer Takeover [0.0]
大規模言語モデル(LLM)エージェントとマルチエージェントシステムは、従来のコンテンツ生成からシステムレベルの妥協まで及ぶセキュリティ脆弱性を導入している。
本稿では,自律エージェント内の推論エンジンとして使用されるLLMのセキュリティを総合的に評価する。
異なる攻撃面と信頼境界がどのように活用され、そのような乗っ取りを組織化できるかを示す。
論文 参考訳(メタデータ) (2025-07-09T13:54:58Z) - Let the Trial Begin: A Mock-Court Approach to Vulnerability Detection using LLM-Based Agents [10.378745306569053]
VulTrialは、自動脆弱性検出を強化するために設計された法廷インスパイアされたフレームワークである。
セキュリティ研究者、コード作者、モデレーター、レビューボードの4つの役割専門エージェントを雇用している。
GPT-3.5とGPT-4oを使用して、VulTrialはそれぞれのベースラインに対して102.39%、84.17%の性能を向上させる。
論文 参考訳(メタデータ) (2025-05-16T07:54:10Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。