論文の概要: CVEfixes: Automated Collection of Vulnerabilities and Their Fixes from
Open-Source Software
- arxiv url: http://arxiv.org/abs/2107.08760v1
- Date: Mon, 19 Jul 2021 11:34:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-20 21:42:49.625831
- Title: CVEfixes: Automated Collection of Vulnerabilities and Their Fixes from
Open-Source Software
- Title(参考訳): CVEfixes: 脆弱性の自動収集とオープンソースソフトウェアからの修正
- Authors: Guru Prasad Bhandari, Amara Naseer and Leon Moonen (Simula Research
Laboratory, Norway)
- Abstract要約: 完全に自動化されたデータセット収集ツールを実装し、CVEfixesという脆弱性データセットの初期リリースを共有します。
データセットには、プログラミング言語などのメタデータと、5つの抽象化レベルにおける詳細なコードとセキュリティメトリクスが組み込まれている。
CVEfixesは、脆弱性予測、脆弱性分類、脆弱性重大度予測、脆弱性関連コード変更の分析、自動脆弱性修正など、さまざまなタイプのデータ駆動型ソフトウェアセキュリティ研究をサポートしている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data-driven research on the automated discovery and repair of security
vulnerabilities in source code requires comprehensive datasets of real-life
vulnerable code and their fixes. To assist in such research, we propose a
method to automatically collect and curate a comprehensive vulnerability
dataset from Common Vulnerabilities and Exposures (CVE) records in the public
National Vulnerability Database (NVD). We implement our approach in a fully
automated dataset collection tool and share an initial release of the resulting
vulnerability dataset named CVEfixes.
The CVEfixes collection tool automatically fetches all available CVE records
from the NVD, gathers the vulnerable code and corresponding fixes from
associated open-source repositories, and organizes the collected information in
a relational database. Moreover, the dataset is enriched with meta-data such as
programming language, and detailed code and security metrics at five levels of
abstraction. The collection can easily be repeated to keep up-to-date with
newly discovered or patched vulnerabilities. The initial release of CVEfixes
spans all published CVEs up to 9 June 2021, covering 5365 CVE records for 1754
open-source projects that were addressed in a total of 5495 vulnerability
fixing commits.
CVEfixes supports various types of data-driven software security research,
such as vulnerability prediction, vulnerability classification, vulnerability
severity prediction, analysis of vulnerability-related code changes, and
automated vulnerability repair.
- Abstract(参考訳): ソースコードのセキュリティ脆弱性の自動発見と修復に関するデータ駆動リサーチは、実際の脆弱なコードの包括的なデータセットとその修正を必要とする。
本研究では,NVD(National Vulnerability Database)におけるCVE(Common Vulnerabilities and Exposures)レコードから,包括的脆弱性データセットを自動的に収集し,キュレートする手法を提案する。
我々は、完全に自動化されたデータセット収集ツールにアプローチを実装し、CVEfixesという脆弱性データセットの初期リリースを共有します。
CVEfixesコレクションツールは、NVDから利用可能なすべてのCVEレコードを自動的に取得し、脆弱性のあるコードと関連するオープンソースリポジトリからの修正を収集し、収集した情報をリレーショナルデータベースに整理する。
さらに、データセットにはプログラミング言語などのメタデータと、5つの抽象化レベルにおける詳細なコードとセキュリティメトリクスが組み込まれています。
コレクションは簡単に繰り返して、新しく発見されたまたはパッチされた脆弱性を最新に保つことができる。
CVEfixesの最初のリリースは、2021年6月9日までに公開されたすべてのCVEにまたがっており、合計5495の脆弱性修正コミットで対処された1754のオープンソースプロジェクトの5365のCVEレコードをカバーしている。
CVEfixesは、脆弱性予測、脆弱性分類、脆弱性重大度予測、脆弱性関連コード変更の分析、自動脆弱性修正など、さまざまなタイプのデータ駆動ソフトウェアセキュリティ研究をサポートしている。
関連論文リスト
- ARVO: Atlas of Reproducible Vulnerabilities for Open Source Software [20.927909014593318]
オープンソースソフトウェアでは,ARVO:Atlas of Reproducible Vulnerabilitiesを紹介した。
250以上のプロジェクトにわたって5,000以上のメモリ脆弱性を再現しています。
OSS-Fuzzが新たな脆弱性を見つけると、データセットは自動的に更新されます。
論文 参考訳(メタデータ) (2024-08-04T22:13:14Z) - VulZoo: A Comprehensive Vulnerability Intelligence Dataset [12.229092589037808]
VulZooは17の人気の脆弱性情報ソースをカバーする、包括的な脆弱性インテリジェンスデータセットである。
VulZooを一般公開し、今後の研究を容易にするためにインクリメンタルアップデートでメンテナンスしています。
論文 参考訳(メタデータ) (2024-06-24T06:39:07Z) - MegaVul: A C/C++ Vulnerability Dataset with Comprehensive Code Representation [5.821166713605872]
MegaVulは、MegaVulという名前の新しい大規模かつ包括的なC/C++脆弱性データセットである。
CVEデータベースから脆弱性のクロール可能な記述情報をすべて収集し、28のGitベースのWebサイトから脆弱性関連のコード変更をすべて抽出しました。
MegaVulには、2006年1月から2023年10月までの169の異なる脆弱性タイプにまたがる、992のオープンソースリポジトリから収集された17,380の脆弱性が含まれている。
論文 参考訳(メタデータ) (2024-06-18T09:03:18Z) - Unveiling Hidden Links Between Unseen Security Entities [3.7138962865789353]
VulnScopperは、知識グラフ(KG)と自然言語処理(NLP)を組み合わせたマルチモーダル表現学習を利用した革新的なアプローチである。
我々は、National Vulnerability Database(NVD)とRed Hat CVEデータベースの2つの主要なセキュリティデータセットでVulnScopperを評価した。
VulnScopperは既存の手法よりも優れており、CVEをCWE(Common Vulnerabilities and Exposures)、CPE(Common Platform Languageions)にリンクする際の78%のHits@10精度を実現している。
論文 参考訳(メタデータ) (2024-03-04T13:14:39Z) - REEF: A Framework for Collecting Real-World Vulnerabilities and Fixes [40.401211102969356]
本稿では,REal-world vulnErabilities and Fixesをオープンソースリポジトリから収集するための自動収集フレームワークREEFを提案する。
脆弱性とその修正を収集する多言語クローラを開発し、高品質な脆弱性修正ペアをフィルタするためのメトリクスを設計する。
大規模な実験を通じて,我々の手法が高品質な脆弱性修正ペアを収集し,強力な説明を得られることを示す。
論文 参考訳(メタデータ) (2023-09-15T02:50:08Z) - On the Security Blind Spots of Software Composition Analysis [46.1389163921338]
Mavenリポジトリで脆弱性のあるクローンを検出するための新しいアプローチを提案する。
Maven Centralから53万以上の潜在的な脆弱性のあるクローンを検索します。
検出された727個の脆弱なクローンを検出し、それぞれに検証可能な脆弱性証明プロジェクトを合成する。
論文 参考訳(メタデータ) (2023-06-08T20:14:46Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - FRUIT: Faithfully Reflecting Updated Information in Text [106.40177769765512]
FRUIT(FruIT)で更新情報を反映した新しい生成タスクについて紹介する。
我々の分析は、記事の更新が可能なモデルを開発するには、ニューラルジェネレーションモデルに新しい能力が必要であることを示している。
論文 参考訳(メタデータ) (2021-12-16T05:21:24Z) - Dataset Security for Machine Learning: Data Poisoning, Backdoor Attacks,
and Defenses [150.64470864162556]
この作業は体系的に分類され、幅広いデータセット脆弱性とエクスプロイトを議論する。
様々な毒とバックドアの脅威モデルとそれらの関係を記述することに加えて,それらの統一分類法を展開する。
論文 参考訳(メタデータ) (2020-12-18T22:38:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。