論文の概要: CyberGym-E2E: Scalable Real-World Benchmark for AI Agents' End-to-End Cybersecurity Capabilities
- arxiv url: http://arxiv.org/abs/2606.04460v1
- Date: Wed, 03 Jun 2026 05:06:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.560558
- Title: CyberGym-E2E: Scalable Real-World Benchmark for AI Agents' End-to-End Cybersecurity Capabilities
- Title(参考訳): CyberGym-E2E:AIエージェントのエンドツーエンドサイバーセキュリティ機能のためのスケーラブルなリアルタイムベンチマーク
- Authors: Tianneng Shi, Robin Rheem, Dongwei Jiang, Mona Wang, Francisco De La Riega, Zhun Wang, Jingzhi Jiang, Alexander Cheung, Sean Tai, Jonah Cha, Jianhong Tu, Gabriel Han, Chenguang Wang, Jingxuan He, Wenbo Guo, Dawn Song,
- Abstract要約: CyberGym-E2Eは大規模かつ現実的なエンドツーエンドのサイバーセキュリティベンチマークである。
脆弱性発見、PoC生成、パッチ生成の全ライフサイクルにわたって、AIエージェントの能力を包括的に評価する。
ベンチマークは、139の異なるオープンソースプロジェクトで920の現実世界の脆弱性で構成されている。
- 参考スコア(独自算出の注目度): 66.48570184296857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI has the potential to transform cybersecurity by enabling systems that can autonomously detect, analyze, and remediate software vulnerabilities. However, existing cybersecurity evaluations of AI systems are limited in scale or scope, and fail to capture the end-to-end lifecycle of real-world software vulnerability discovery and remediation. To address this gap, we propose CyberGym-E2E, a large-scale and realistic end-to-end cybersecurity benchmark that comprehensively evaluates AI agents' abilities across the full lifecycle of vulnerability discovery, PoC generation, and patch generation. CyberGym-E2E is comprehensive and scalable, as we build an automated, agent-enhanced pipeline for transforming open-source vulnerability data into realistic evaluation environments. Currently, the benchmark consists of 920 real-world vulnerabilities across 139 different open-source projects.
- Abstract(参考訳): AIは、ソフトウェア脆弱性を自律的に検出し、分析し、修正するシステムを可能にすることによって、サイバーセキュリティを変革する可能性がある。
しかし、AIシステムの既存のサイバーセキュリティ評価は、規模や範囲が限られており、現実世界のソフトウェア脆弱性発見と修復のエンドツーエンドライフサイクルを捉えていない。
このギャップに対処するため、我々はCyberGym-E2Eを提案する。これは大規模で現実的なエンドツーエンドのサイバーセキュリティベンチマークで、脆弱性発見、PoC生成、パッチ生成の全ライフサイクルにわたってAIエージェントの能力を包括的に評価する。
CyberGym-E2Eは包括的でスケーラブルで、オープンソースの脆弱性データを現実的な評価環境に変換するための自動化されたエージェント強化パイプラインを構築しています。
現在、ベンチマークは139の異なるオープンソースプロジェクトで920の現実世界の脆弱性で構成されている。
関連論文リスト
- ExploitGym: Can AI Agents Turn Security Vulnerabilities into Real Attacks? [92.21756459993695]
低レベルのプログラム推論を必要とするため、爆発は難しい作業です。
その重要性と診断価値にもかかわらず、搾取は未評価のままである。
ExploitGymは、AIエージェントのエクスプロイト能力に関する大規模で多様な、現実的なベンチマークである。
論文 参考訳(メタデータ) (2026-05-11T18:00:14Z) - ORCA -- An Automated Threat Analysis Pipeline for O-RAN Continuous Development [57.61878484176942]
Open-Radio Access Network (O-RAN)は、多くのソフトウェアコンポーネントをクラウドのようなデプロイメントに統合し、これまで考えられていなかったセキュリティ脅威に無線アクセスネットワークを開放する。
現在の脆弱性評価の実践は、しばしば手動、労働集約、主観的な調査に依存しており、脅威分析の不整合につながる。
人間の介入や関連するバイアスを最小限に抑えるために,自然言語処理(NLP)を活用する自動パイプラインを提案する。
論文 参考訳(メタデータ) (2026-01-20T07:31:59Z) - CyberGym: Evaluating AI Agents' Real-World Cybersecurity Capabilities at Scale [45.97598662617568]
我々は188のソフトウェアプロジェクトにわたる1,507の実際の脆弱性を特徴とする大規模ベンチマークであるCyberGymを紹介した。
我々はCyberGymが35のゼロデイ脆弱性と17の歴史的不完全なパッチを発見できることを示した。
これらの結果は、CyberGymは、サイバーセキュリティにおけるAIの進歩を測定するための堅牢なベンチマークであるだけでなく、直接的な現実世界のセキュリティ効果を生み出すためのプラットフォームでもあることを強調している。
論文 参考訳(メタデータ) (2025-06-03T07:35:14Z) - SafeAgent: Safeguarding LLM Agents via an Automated Risk Simulator [77.86600052899156]
LLM(Large Language Model)ベースのエージェントは、現実のアプリケーションにますますデプロイされる。
完全自動合成データ生成によるエージェント安全性を体系的に向上する最初のフレームワークであるAutoSafeを提案する。
AutoSafeは安全性のスコアを平均で45%向上させ、現実世界のタスクでは28.91%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-23T10:56:06Z) - CVE-Bench: A Benchmark for AI Agents' Ability to Exploit Real-World Web Application Vulnerabilities [6.752938800468733]
大規模言語モデル(LLM)エージェントは、サイバー攻撃を自律的に行う能力が高まっている。
既存のベンチマークは、抽象化されたCapture the Flagコンペティションに制限されているか、包括的なカバレッジが欠如しているため、不足している。
私たちはCVE-Benchを紹介します。CVE-Benchは、クリティカルシヴァリティ・コモン・脆弱性と露出に基づく、現実世界のサイバーセキュリティベンチマークです。
論文 参考訳(メタデータ) (2025-03-21T17:32:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。