論文の概要: Cybersecurity AI: The World's Top AI Agent for Security Capture-the-Flag (CTF)
- arxiv url: http://arxiv.org/abs/2512.02654v1
- Date: Tue, 02 Dec 2025 11:15:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.842591
- Title: Cybersecurity AI: The World's Top AI Agent for Security Capture-the-Flag (CTF)
- Title(参考訳): サイバーセキュリティAI:CTF(Security Capture-the-Flag)の世界トップAIエージェント
- Authors: Víctor Mayoral-Vilches, Luis Javier Navarrete-Lozano, Francesco Balassone, María Sanz-Gómez, Cristóbal R. J. Veas Chavez, Maite del Mundo de Torres, Vanesa Turiel,
- Abstract要約: 2025年、サイバーセキュリティAI(CAI)は、世界で最も名高いハッキング競技を組織的に征服した。
本稿では,2025 CTF回路におけるAI能力の包括的証拠を示す。
セキュリティコミュニティは、Jeopardyスタイルのコンテストからアタック・アンド・ディフェンスのフォーマットに緊急に移行する必要がある、と論じている。
- 参考スコア(独自算出の注目度): 0.3440866754277105
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Are Capture-the-Flag competitions obsolete? In 2025, Cybersecurity AI (CAI) systematically conquered some of the world's most prestigious hacking competitions, achieving Rank #1 at multiple events and consistently outperforming thousands of human teams. Across five major circuits-HTB's AI vs Humans, Cyber Apocalypse (8,129 teams), Dragos OT CTF, UWSP Pointer Overflow, and the Neurogrid CTF showdown-CAI demonstrated that Jeopardy-style CTFs have become a solved game for well-engineered AI agents. At Neurogrid, CAI captured 41/45 flags to claim the $50,000 top prize; at Dragos OT, it sprinted 37% faster to 10K points than elite human teams; even when deliberately paused mid-competition, it maintained top-tier rankings. Critically, CAI achieved this dominance through our specialized alias1 model architecture, which delivers enterprise-scale AI security operations at unprecedented cost efficiency and with augmented autonomy-reducing 1B token inference costs from $5,940 to just $119, making continuous security agent operation financially viable for the first time. These results force an uncomfortable reckoning: if autonomous agents now dominate competitions designed to identify top security talent at negligible cost, what are CTFs actually measuring? This paper presents comprehensive evidence of AI capability across the 2025 CTF circuit and argues that the security community must urgently transition from Jeopardy-style contests to Attack & Defense formats that genuinely test adaptive reasoning and resilience-capabilities that remain uniquely human, for now.
- Abstract(参考訳): Capture-the-Flagコンペティションは時代遅れか?
2025年、サイバーセキュリティAI(CAI)は、世界で最も名高いハッキング競技のいくつかを体系的に征服し、複数のイベントでランク1を獲得し、何千もの人間チームを上回った。
HTBのAI vs Humans、Cyber Apocalypse (8,129チーム)、Dragos OT CTF、UWSP Pointer Overflow、Neurogrid CTF Showdown-CAIの5つの主要なサーキットで、JeopardyスタイルのCTFが、熟練したAIエージェントの解決ゲームになっていることを示した。
Neurogridでは41/45の旗を掲げて5万ドルを獲得したが、Dragos OTではエリートチームよりも37%速かった。
企業規模のAIセキュリティオペレーションを前例のないコスト効率で提供し、自動化された1Bトークン推論コストを5940ドルから19ドルに削減し、継続的セキュリティエージェントの運用を初めて経済的に実行可能にする。
もし自律的なエージェントが、無視できるコストでトップセキュリティの人材を特定するために設計された競争を支配しているなら、CTFは実際に何を計測しているのか?
本稿では,2025 CTF回路全体のAI能力に関する包括的証拠を提示し,セキュリティコミュニティは,現時点では,適応推論とレジリエンス能力を真にテストする,Jeopardyスタイルのコンテストからアタック&ディフェンスフォーマットへの移行を急務に行わなければならない,と論じる。
関連論文リスト
- Cybersecurity AI in OT: Insights from an AI Top-10 Ranker in the Dragos OT CTF 2025 [0.36134114973155557]
我々は,Dragos OT CTF 2025におけるCAI(Cybersecurity AI)のパフォーマンスについて検討する。
CAIテレメトリと公式のリーダーボードデータを使用して、CAIの軌道を、主要な人間運用チームと比較して定量化します。
論文 参考訳(メタデータ) (2025-11-07T10:04:11Z) - Security Challenges in AI Agent Deployment: Insights from a Large Scale Public Competition [101.86739402748995]
44の現実的なデプロイメントシナリオを対象とした,22のフロンティアAIエージェントを対象にしています。
Agent Red Teamingベンチマークを構築し、19の最先端モデルで評価します。
私たちの発見は、今日のAIエージェントの重要かつ永続的な脆弱性を浮き彫りにしたものです。
論文 参考訳(メタデータ) (2025-07-28T05:13:04Z) - Evaluating AI cyber capabilities with crowdsourced elicitation [0.0]
我々は、新興AI能力に対する時間的かつ費用対効果の高い状況認識を維持するための実践的なメカニズムとして、Elicitation bountiesを提案する。
METRの手法を適用すると、AIエージェントは中央のヒトCTF参加者から1時間以下の労力を必要とするサイバー課題を確実に解決できることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:40:32Z) - CAI: An Open, Bug Bounty-Ready Cybersecurity AI [0.3889280708089931]
Cybersecurity AI(CAI)は、特殊なAIエージェントを通じて高度なセキュリティテストを民主化する、オープンソースのフレームワークである。
CAI は CTF ベンチマークで常に最先端の結果を上回っていることを示す。
CAIはスペインで30位、Hack The Boxで500位に達した。
論文 参考訳(メタデータ) (2025-04-08T13:22:09Z) - Superintelligence Strategy: Expert Version [64.7113737051525]
AI開発を不安定にすることで、大国間の対立の可能性が高まる可能性がある。
スーパーインテリジェンス — ほぼすべての認知タスクにおいて、AIが人間よりもはるかに優れている — が、AI研究者によって期待されている。
本稿では,相互保証型AI誤動作の概念を紹介する。
論文 参考訳(メタデータ) (2025-03-07T17:53:24Z) - Artificial Intelligence Security Competition (AISC) [52.20676747225118]
人工知能セキュリティコンペティション(AISC)は、Zhonguancun Laboratory、China Industrial Control Systems Cyber Emergency Response Team、Institute for Artificial Intelligence、清華大学、RealAIによって組織された。
コンテストはディープフェイクセキュリティコンペティション、自律運転セキュリティコンペティション、顔認識セキュリティコンペティションの3つのトラックで構成されている。
本報告では,これらの3トラックの競合ルールと,各トラックの上位チームのソリューションについて紹介する。
論文 参考訳(メタデータ) (2022-12-07T02:45:27Z) - Can Machines Imitate Humans? Integrative Turing-like tests for Language and Vision Demonstrate a Narrowing Gap [56.611702960809644]
3つの言語タスクと3つの視覚タスクで人間を模倣するAIの能力をベンチマークする。
次に,人間1,916名,AI10名を対象に,72,191名のチューリング様試験を行った。
模倣能力は従来のAIパフォーマンス指標と最小限の相関を示した。
論文 参考訳(メタデータ) (2022-11-23T16:16:52Z) - Adversarial Policies Beat Superhuman Go AIs [54.15639517188804]
我々は,現在最先端の囲碁AIシステムであるKataGoを,敵の政策を訓練することによって攻撃する。
敵は囲碁を上手に弾くことで勝てない。かたごを騙して真剣な失敗を犯す。
我々の結果は、超人的AIシステムでさえ、驚くほどの障害モードを持っていることを実証している。
論文 参考訳(メタデータ) (2022-11-01T03:13:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。