論文の概要: Cyber-Zero: Training Cybersecurity Agents without Runtime
- arxiv url: http://arxiv.org/abs/2508.00910v1
- Date: Tue, 29 Jul 2025 18:10:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 20:32:48.67881
- Title: Cyber-Zero: Training Cybersecurity Agents without Runtime
- Title(参考訳): Cyber-Zero: ランタイムなしでのサイバーセキュリティエージェントのトレーニング
- Authors: Terry Yue Zhuo, Dingmin Wang, Hantian Ding, Varun Kumar, Zijian Wang,
- Abstract要約: Cyber-Zeroは、サイバーセキュリティのLLMをトレーニングするために高品質なエージェントトラジェクトリを合成する最初のランタイムフリーフレームワークである。
ベースラインモデルよりも最大13.1%の絶対的な性能向上を実現するLCMベースのエージェントを訓練する。
当社のベストモデルであるCyber-Zero-32Bは、オープンウェイトモデルの最先端性能を確立しています。
- 参考スコア(独自算出の注目度): 17.633037059337163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable success in software engineering tasks when trained with executable runtime environments, particularly in resolving GitHub issues. However, such runtime environments are often unavailable in other domains, especially cybersecurity, where challenge configurations and execution contexts are ephemeral or restricted. We present Cyber-Zero, the first runtime-free framework for synthesizing high-quality agent trajectories to train cybersecurity LLMs. Cyber-Zero leverages publicly available CTF writeups and employs persona-driven LLM simulation to reverse-engineer runtime behaviors and generate realistic, long-horizon interaction sequences without actual environments. Using trajectories synthesized by Cyber-Zero, we train LLM-based agents that achieve up to 13.1% absolute performance gains over baseline models on three prominent CTF benchmarks: InterCode-CTF, NYU CTF Bench, and Cybench. Our best model, Cyber-Zero-32B, establishes new state-of-the-art performance among open-weight models, matching the capabilities of proprietary systems like DeepSeek-V3-0324 and Claude-3.5-Sonnet while offering superior cost-effectiveness, and demonstrating that runtime-free trajectory synthesis can effectively democratize the development of state-of-the-art cybersecurity agents.
- Abstract(参考訳): 大きな言語モデル(LLM)は、実行可能なランタイム環境、特にGitHubの問題を解決するためにトレーニングされたソフトウェアエンジニアリングタスクにおいて、大きな成功を収めています。
しかし、このような実行環境は他のドメイン、特にサイバーセキュリティでは利用できない。
我々は,サイバーセキュリティのLLMをトレーニングするために,高品質なエージェントトラジェクトリを合成する最初のランタイムフリーフレームワークであるCyber-Zeroを紹介する。
Cyber-Zero は公開の CTF 書き込みを活用し、ペルソナ駆動 LLM シミュレーションを用いて実行時の動作をリバースエンジニアリングし、実際の環境を使わずに現実的な長時間水平相互作用シーケンスを生成する。
Cyber-Zeroによって合成された軌道を用いて、我々は、インターコード-CTF、NYU CTF Bench、Cybenchという3つの主要なCTFベンチマークのベースラインモデルよりも最大13.1%の絶対的なパフォーマンス向上を達成するLCMベースのエージェントを訓練する。
当社のベストモデルであるCyber-Zero-32Bは、DeepSeek-V3-0324やClaude-3.5-Sonnetといったプロプライエタリなシステムの能力と優れたコスト効率を提供しながら、新たな最先端のパフォーマンスを確立し、ランタイムフリーなトラジェクトリ合成が最先端のサイバーセキュリティエージェントの開発を効果的に民主化することを示した。
関連論文リスト
- SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience [71.82719117238307]
本稿では,コンピュータ利用エージェントが不慣れなソフトウェアとのインタラクションを通じて進化することを可能にするエージェント型自己進化フレームワークSEAgentを提案する。
我々は、OS-World内の5つの新しいソフトウェア環境におけるSEAgentの有効性を検証する。
当社のアプローチは,競合するオープンソースCUAに比べて,11.3%から34.5%という,23.2%の大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-08-06T17:58:46Z) - Auto-SGCR: Automated Generation of Smart Grid Cyber Range Using IEC 61850 Standard Models [8.55849957500108]
電力網のデジタル化は、過去10年間でますますサイバー攻撃を受けやすくなっている。
反復型サイバーセキュリティテストは、出現する攻撃ベクトルに対抗し、重要なインフラの信頼性を確保するために不可欠である。
高忠実度サイバーレンジは、生産環境を用いた実験や訓練を行うことができないことが多いため、不可欠である。
論文 参考訳(メタデータ) (2025-07-24T09:44:03Z) - CyberGym: Evaluating AI Agents' Cybersecurity Capabilities with Real-World Vulnerabilities at Scale [46.76144797837242]
大規模言語モデル(LLM)エージェントは、自律的なサイバーセキュリティタスクの処理において、ますます熟練している。
既存のベンチマークは不足していて、現実のシナリオをキャプチャできなかったり、スコープが限られていたりします。
我々はCyberGymを紹介した。CyberGymは1,507の現実世界の脆弱性を特徴とする大規模かつ高品質なサイバーセキュリティ評価フレームワークである。
論文 参考訳(メタデータ) (2025-06-03T07:35:14Z) - Llama-3.1-FoundationAI-SecurityLLM-Base-8B Technical Report [50.268821168513654]
我々は,Llama 3.1アーキテクチャ上に構築された,サイバーセキュリティにフォーカスした大規模言語モデル(LLM)であるFoundation-Sec-8Bを紹介する。
我々は、Llama 3.1-70B と GPT-4o-mini がサイバーセキュリティ固有のタスクで一致していることを示し、確立された新しいサイバーセキュリティベンチマークと新しいサイバーセキュリティベンチマークの両方で評価した。
当社のモデルを一般公開することで、公開とプライベート両方のサイバーセキュリティ状況において、AI駆動ツールの進歩と採用を加速することを目指しています。
論文 参考訳(メタデータ) (2025-04-28T08:41:12Z) - OCCULT: Evaluating Large Language Models for Offensive Cyber Operation Capabilities [0.0]
我々は、実世界の攻撃的サイバー操作の実現とスケーリングに向けたAIの進歩を評価するための新しいアプローチを実証する。
我々は、サイバーセキュリティの専門家が厳格かつ反復可能な測定に貢献できる軽量な運用評価フレームワークであるOCCULTについて詳述する。
私たちは、現実的なサイバー脅威をスケールするためにAIが使用されるリスクが、最近著しく進歩していることに気付きました。
論文 参考訳(メタデータ) (2025-02-18T19:33:14Z) - Catastrophic Cyber Capabilities Benchmark (3CB): Robustly Evaluating LLM Agent Cyber Offense Capabilities [1.1359551336076306]
LLMエージェントの実際の攻撃能力を厳格に評価するフレームワークであるCatastrophic Cyber Capabilities Benchmark (3CB)を紹介する。
GPT-4o や Claude 3.5 Sonnet のようなフロンティアモデルでは,偵察や悪用といった攻撃的なタスクを実行できる。
我々のソフトウェアソリューションとそれに対応するベンチマークは、サイバー犯罪評価の迅速な改善能力と堅牢性の間のギャップを減らすための重要なツールを提供する。
論文 参考訳(メタデータ) (2024-10-10T12:06:48Z) - Hackphyr: A Local Fine-Tuned LLM Agent for Network Security Environments [0.5735035463793008]
大規模言語モデル(LLM)は、サイバーセキュリティなど、さまざまな分野において顕著な可能性を示している。
我々は、ネットワークセキュリティ環境において、レッドチームエージェントとして使用されるローカルな微調整LDMであるHackphyrを紹介する。
論文 参考訳(メタデータ) (2024-09-17T15:28:25Z) - Active Predicting Coding: Brain-Inspired Reinforcement Learning for
Sparse Reward Robotic Control Problems [79.07468367923619]
ニューラルジェネレーティブ・コーディング(NGC)の神経認知計算フレームワークによるロボット制御へのバックプロパゲーションフリーアプローチを提案する。
我々は、スパース報酬から動的オンライン学習を容易にする強力な予測符号化/処理回路から完全に構築されたエージェントを設計する。
提案するActPCエージェントは,スパース(外部)報酬信号に対して良好に動作し,複数の強力なバックプロップベースのRLアプローチと競合し,性能が優れていることを示す。
論文 参考訳(メタデータ) (2022-09-19T16:49:32Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z) - Real-time Neural-MPC: Deep Learning Model Predictive Control for
Quadrotors and Agile Robotic Platforms [59.03426963238452]
モデル予測制御パイプライン内の動的モデルとして,大規模で複雑なニューラルネットワークアーキテクチャを効率的に統合するフレームワークであるReal-time Neural MPCを提案する。
ニューラルネットワークを使わずに、最先端のMPCアプローチと比較して、位置追跡誤差を最大82%削減することで、実世界の問題に対する我々のフレームワークの実現可能性を示す。
論文 参考訳(メタデータ) (2022-03-15T09:38:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。