論文の概要: Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing
- arxiv url: http://arxiv.org/abs/2512.09882v1
- Date: Wed, 10 Dec 2025 18:12:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.627269
- Title: Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing
- Title(参考訳): 実世界の侵入テストにおけるAIエージェントとサイバーセキュリティ専門家の比較
- Authors: Justin W. Lin, Eliot Krzysztof Jones, Donovan Julian Jasper, Ethan Jun-shen Ho, Anna Wu, Arnold Tianyi Yang, Neil Perry, Andy Zou, Matt Fredrikson, J. Zico Kolter, Percy Liang, Dan Boneh, Daniel E. Ho,
- Abstract要約: 我々は、人間のサイバーセキュリティ専門家に対するAIエージェントの包括的な評価を初めて提示する。
我々は、既存の6人のAIエージェントと、新しいエージェントの足場であるARTEMISとともに、10人のサイバーセキュリティ専門家を評価します。
ARTEMISは総合的に第2位で、9つの有効な脆弱性と82%の有効な提出率を発見した。
- 参考スコア(独自算出の注目度): 83.48116811975787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the first comprehensive evaluation of AI agents against human cybersecurity professionals in a live enterprise environment. We evaluate ten cybersecurity professionals alongside six existing AI agents and ARTEMIS, our new agent scaffold, on a large university network consisting of ~8,000 hosts across 12 subnets. ARTEMIS is a multi-agent framework featuring dynamic prompt generation, arbitrary sub-agents, and automatic vulnerability triaging. In our comparative study, ARTEMIS placed second overall, discovering 9 valid vulnerabilities with an 82% valid submission rate and outperforming 9 of 10 human participants. While existing scaffolds such as Codex and CyAgent underperformed relative to most human participants, ARTEMIS demonstrated technical sophistication and submission quality comparable to the strongest participants. We observe that AI agents offer advantages in systematic enumeration, parallel exploitation, and cost -- certain ARTEMIS variants cost $18/hour versus $60/hour for professional penetration testers. We also identify key capability gaps: AI agents exhibit higher false-positive rates and struggle with GUI-based tasks.
- Abstract(参考訳): 実運用環境における人間サイバーセキュリティ専門家に対するAIエージェントの包括的評価について紹介する。
10人のサイバーセキュリティ専門家と6人の既存のAIエージェント、そして新しいエージェントの足場であるARTEMISを、12のサブネットにわたる約8,000のホストからなる大規模な大学ネットワーク上で評価します。
ARTEMISは動的プロンプト生成、任意のサブエージェント、自動脆弱性トリアージを備えたマルチエージェントフレームワークである。
比較研究では、ARTEMISが総合的に第2位となり、有効な9つの脆弱性を発見し、82%の応募率、そして10人の参加者のうち9つを上回った。
CodexやCyAgentのような既存の足場は、ほとんどの人間の参加者と比較して性能が劣っていたが、ARTEMISは、最も強い参加者に匹敵する技術的洗練と提出品質を示した。
一部のARTEMIS変種は、プロの侵入テスト担当者が1時間に18ドルに対して60ドルに対して、1時間に18ドルです。
AIエージェントは偽陽性率が高く、GUIベースのタスクに苦労する。
関連論文リスト
- LIMI: Less is More for Agency [49.63355240818081]
LIMI(Less Is More for Intelligent Agency)は、機関が根本的に異なる開発原則に従うことを示す。
高度なエージェント・インテリジェンスは、最小でも戦略的にキュレートされた自律行動のデモンストレーションから生まれる可能性がある。
マシンの自律性はデータの豊富さではなく、高品質なエージェント実証の戦略的キュレーションから生まれる。
論文 参考訳(メタデータ) (2025-09-22T10:59:32Z) - Security Challenges in AI Agent Deployment: Insights from a Large Scale Public Competition [101.86739402748995]
44の現実的なデプロイメントシナリオを対象とした,22のフロンティアAIエージェントを対象にしています。
Agent Red Teamingベンチマークを構築し、19の最先端モデルで評価します。
私たちの発見は、今日のAIエージェントの重要かつ永続的な脆弱性を浮き彫りにしたものです。
論文 参考訳(メタデータ) (2025-07-28T05:13:04Z) - CAI: An Open, Bug Bounty-Ready Cybersecurity AI [0.3889280708089931]
Cybersecurity AI(CAI)は、特殊なAIエージェントを通じて高度なセキュリティテストを民主化する、オープンソースのフレームワークである。
CAI は CTF ベンチマークで常に最先端の結果を上回っていることを示す。
CAIはスペインで30位、Hack The Boxで500位に達した。
論文 参考訳(メタデータ) (2025-04-08T13:22:09Z) - RE-Bench: Evaluating frontier AI R&D capabilities of language model agents against human experts [4.06186944042499]
7つの挑戦的でオープンなMLリサーチエンジニアリング環境と、61人の専門家による71の8時間の試みのデータで構成されるRE-Benchを紹介します。
最高のAIエージェントは、環境当たりの合計時間予算が2時間与えられたとき、人間の専門家よりも4倍高いスコアを得る。
現在、人間は時間予算の増加に対してより良いリターンを示しており、8時間予算で上位AIエージェントのスコアをわずかに上回り、合計32時間(異なる試み)で上位AIエージェントのスコアを2倍にしている。
論文 参考訳(メタデータ) (2024-11-22T18:30:46Z) - HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions [95.49509269498367]
本稿では,多様な複雑な社会的相互作用におけるAIエージェントの安全性を調べるフレームワークであるHAICOSYSTEMを提案する。
私たちは7つの領域(医療、金融、教育など)にわたる92のシナリオに基づいて1840のシミュレーションを実行します。
我々の実験は、最先端のLSMは、プロプライエタリかつオープンソースの両方で、50%以上のケースで安全リスクを示すことを示した。
論文 参考訳(メタデータ) (2024-09-24T19:47:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。