Fugu-MT 論文翻訳(概要): CVE-Factory: Scaling Expert-Level Agentic Tasks for Code Security Vulnerability

論文の概要: CVE-Factory: Scaling Expert-Level Agentic Tasks for Code Security Vulnerability

arxiv url: http://arxiv.org/abs/2602.03012v1
Date: Tue, 03 Feb 2026 02:27:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-04 18:37:15.194017
Title: CVE-Factory: Scaling Expert-Level Agentic Tasks for Code Security Vulnerability
Title（参考訳）: CVE-Factory: コードのセキュリティ脆弱性に対するエキスパートレベルエージェントタスクのスケーリング
Authors: Xianzhen Luo, Jingyuan Zhang, Shiqi Zhou, Rain Huang, Chuan Xiao, Qingfu Zhu, Zhiyuan Ma, Xing Yue, Yang Yue, Wencong Zeng, Wanxiang Che,
Abstract要約: CVE-Factoryは、脆弱性タスクを自動変換するエキスパートレベルの品質を実現するための、最初のマルチエージェントフレームワークである。最新の現実的な脆弱性についても評価され、66.2%の成功が証明されている。コードセキュリティにおけるエージェントタスクの大規模スケーリングとして,1000以上の実行可能なトレーニング環境を合成する。
参考スコア（独自算出の注目度）: 50.57373283154859
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Evaluating and improving the security capabilities of code agents requires high-quality, executable vulnerability tasks. However, existing works rely on costly, unscalable manual reproduction and suffer from outdated data distributions. To address these, we present CVE-Factory, the first multi-agent framework to achieve expert-level quality in automatically transforming sparse CVE metadata into fully executable agentic tasks. Cross-validation against human expert reproductions shows that CVE-Factory achieves 95\% solution correctness and 96\% environment fidelity, confirming its expert-level quality. It is also evaluated on the latest realistic vulnerabilities and achieves a 66.2\% verified success. This automation enables two downstream contributions. First, we construct LiveCVEBench, a continuously updated benchmark of 190 tasks spanning 14 languages and 153 repositories that captures emerging threats including AI-tooling vulnerabilities. Second, we synthesize over 1,000 executable training environments, the first large-scale scaling of agentic tasks in code security. Fine-tuned Qwen3-32B improves from 5.3\% to 35.8\% on LiveCVEBench, surpassing Claude 4.5 Sonnet, with gains generalizing to Terminal Bench (12.5\% to 31.3\%). We open-source CVE-Factory, LiveCVEBench, Abacus-cve (fine-tuned model), training dataset, and leaderboard. All resources are available at https://github.com/livecvebench/CVE-Factory .
Abstract（参考訳）: コードエージェントのセキュリティ機能の評価と改善には、高品質で実行可能な脆弱性タスクが必要である。しかし、既存の作業は費用がかかる手作業による複製に依存しており、時代遅れのデータ配信に悩まされている。 CVE-Factoryは、スパースCVEメタデータを完全実行可能なエージェントタスクに自動的に変換する、エキスパートレベルの品質を実現する最初のマルチエージェントフレームワークである。 CVE-Factoryは,CVE-Factoryが95%の解の正当性と96%の環境忠実性を達成し,専門家レベルの品質を確認した。また、最新の現実的な脆弱性についても評価され、66.2\%の成功を達成している。この自動化により、下流への2つのコントリビューションが可能になる。まず、14の言語と153のリポジトリにまたがる190のタスクの継続的に更新されたベンチマークであるLiveCVEBenchを構築します。第2に、コードセキュリティにおけるエージェントタスクの大規模スケーリングとして、1,000以上の実行可能なトレーニング環境を合成する。微調整されたQwen3-32Bは、LiveCVEBenchで5.3\%から35.8\%に改善され、Claude 4.5 Sonnetを上回り、ターミナルベンチ(12.5\%から31.3\%)に一般化される。私たちはCVE-Factory、LiveCVEBench、Abacus-cve(微調整モデル)、トレーニングデータセット、リーダーボードをオープンソースにしています。すべてのリソースはhttps://github.com/livecvebench/CVE-Factoryで利用可能である。

関連論文リスト

From Leaderboard to Deployment: Code Quality Challenges in AV Perception Repositories [4.603321798937855]
本研究では,KITTIとNuScenes 3D Object Detectionのリーダーボードから178種類のユニークなモデルを体系的に分析した。調査対象となったレポジトリの7.3%が基本生産準備基準を満たしていることがわかった。継続的インテグレーション/継続的デプロイメントパイプラインの採用は、コードメンテナンス性の向上と相関していた。
論文参考訳（メタデータ） (2026-03-02T18:54:28Z)
Outrunning LLM Cutoffs: A Live Kernel Crash Resolution Benchmark for All [57.23434868678603]
Live-kBenchは、新たに発見されたカーネルバグのエージェントをスクラップし、評価するセルフ進化ベンチマークの評価フレームワークである。 kEnvは、カーネルのコンパイル、実行、フィードバックのためのエージェントに依存しないクラッシュ解決環境である。 kEnvを用いて3つの最先端エージェントをベンチマークし、最初の試行で74%のクラッシュを解決したことを示す。
論文参考訳（メタデータ） (2026-02-02T19:06:15Z)
SWE-Universe: Scale Real-World Verifiable Environments to Millions [84.63665266236963]
SWE-Universeは、GitHubのプルリクエスト(PR)から検証可能な環境を自動的に構築するフレームワークである。本稿では, 自動建築の課題を克服するために, 効率的なカスタムトレーニングモデルを用いた建築エージェントを提案する。大規模エージェントによる中等教育と強化学習を通じて,環境の重要さを実証する。
論文参考訳（メタデータ） (2026-02-02T17:20:30Z)
RepoGenesis: Benchmarking End-to-End Microservice Generation from Readme to Repository [52.98970048197381]
RepoGenesisは、リポジトリレベルのエンドツーエンドWebマイクロサービス生成のための、最初の多言語ベンチマークである。 18のドメインと11のフレームワークに106のリポジトリ(60のPython、46のJava)があり、1,258のAPIエンドポイントと2,335のテストケースが検証されている。その結果、高いAC(最大73.91%)とDSR(最大100%)にもかかわらず、最高のパフォーマンスのシステムはPythonで23.67%のPass@1、Javaで21.45%しか達成していないことが明らかになった。
論文参考訳（メタデータ） (2026-01-20T13:19:20Z)
From CVE Entries to Verifiable Exploits: An Automated Multi-Agent Framework for Reproducing CVEs [23.210122086674048]
CVE-GENIEは、現実世界の脆弱性を再現する自動化フレームワークである。 2024-2025年に発行されたCVEの51% (841の428) を再現し、CVE当たり平均2.77ドルで、検証可能なエクスプロイトを完備している。私たちのパイプラインは、様々なアプリケーションに有用な再現可能なCVEベンチマークを生成する堅牢な方法を提供します。
論文参考訳（メタデータ） (2025-09-01T23:37:44Z)
Deployability-Centric Infrastructure-as-Code Generation: An LLM-based Iterative Framework [19.710477636179426]
インフラストラクチャ・アズ・コード(IaC)の生成は、クラウドインフラストラクチャのプロビジョニングを自動化する上で大きな約束を持っています。大規模言語モデル(LLM)の最近の進歩は、IaC開発を民主化する有望な機会を提供する。最近の評価では、IaCテンプレートユーティリティの致命的な測定であるデプロイ可能性を無視しながら、構文的正しさに焦点を当てている。 IaCテンプレートを生成するために反復フィードバック機構を使用するLCMベースのデプロイ性中心のフレームワークであるIaCGenと、デプロイ性中心のIaCテンプレートベンチマークであるDPIaC-Evalである。
論文参考訳（メタデータ） (2025-06-05T22:53:12Z)
BountyBench: Dollar Impact of AI Agent Attackers and Defenders on Real-World Cybersecurity Systems [62.17474934536671]
我々は、現実世界のシステムを進化させる際に、攻撃的かつ防御的なサイバー能力を捕獲する最初の枠組みを紹介する。脆弱性ライフサイクルを捉えるために、3つのタスクタイプを定義します。検出(新たな脆弱性の検出)、エクスプロイト(特定の脆弱性の探索)、パッチ(特定の脆弱性のパッチ)。 Claude Code,OpenAI Codex CLI with o3-high and o4-mini,カスタムエージェント with o3-high, GPT-4.1, Gemini 2.5 Pro Preview, Claude 3.7 Sonnet Thinking, DeepSeek-R1。
論文参考訳（メタデータ） (2025-05-21T07:44:52Z)
SeCodePLT: A Unified Platform for Evaluating the Security of Code GenAI [58.29510889419971]
コード生成大型言語モデル(LLM)のセキュリティリスクと能力を評価するための既存のベンチマークは、いくつかの重要な制限に直面している。手動で検証し、高品質なシード例から始める、汎用的でスケーラブルなベンチマーク構築フレームワークを導入し、ターゲット突然変異を通じて拡張する。このフレームワークをPython、C/C++、Javaに適用すると、44のCWEベースのリスクカテゴリと3つのセキュリティ機能にまたがる5.9k以上のサンプルデータセットであるSeCodePLTが構築されます。
論文参考訳（メタデータ） (2024-10-14T21:17:22Z)
Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risks of Language Models [33.1538965735133]
Cybenchは、サイバーセキュリティタスクを特定し、それらのタスク上でエージェントを評価するためのフレームワークである。 4つの異なるCTFコンペティションから、40のプロフェッショナルレベルのCapture the Flag(CTF)タスクが含まれています。 GPT-4o, OpenAI o1-preview, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct, Gemini 1.5 Pro, Llama 3 70B Chat, Llama 3.1 405B Instruct。
論文参考訳（メタデータ） (2024-08-15T17:23:10Z)
Cybersecurity Defenses: Exploration of CVE Types through Attack Descriptions [1.0474508494260908]
VULDATは、文変換器MPNETを使用して、攻撃記述からシステムの脆弱性を識別する分類ツールである。また,ATT&CKレポジトリから100件,CVEレポジトリから685件のアタック手法を適用した。以上の結果より,F1スコア0.85,精度0.86,リコール0.83,F1スコア0.83,F1スコア0.85,F1スコア0.86,F1スコア0.83,F1スコア0。
論文参考訳（メタデータ） (2024-07-09T11:08:35Z)
VGX: Large-Scale Sample Generation for Boosting Learning-Based Software Vulnerability Analyses [30.65722096096949]
本稿では,高品質な脆弱性データセットを大規模に生成するための新しい手法であるVGXを提案する。 VGXは、そのような編集のパターンを使用して、特定コンテキストにおける脆弱性注入コード編集を実現する。現場でのサンプル生産では、VGXは150,392個の脆弱なサンプルを生成し、ランダムに10%を選択して、これらのサンプルが脆弱性の検出、ローカライゼーション、修復にどの程度役立つかを評価しました。
論文参考訳（メタデータ） (2023-10-24T01:05:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。