論文の概要: MegaVul: A C/C++ Vulnerability Dataset with Comprehensive Code Representation
- arxiv url: http://arxiv.org/abs/2406.12415v1
- Date: Tue, 18 Jun 2024 09:03:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 19:46:52.535780
- Title: MegaVul: A C/C++ Vulnerability Dataset with Comprehensive Code Representation
- Title(参考訳): MegaVul: 包括的なコード表現を備えたC/C++脆弱性データセット
- Authors: Chao Ni, Liyu Shen, Xiaohu Yang, Yan Zhu, Shaohua Wang,
- Abstract要約: MegaVulは、MegaVulという名前の新しい大規模かつ包括的なC/C++脆弱性データセットである。
CVEデータベースから脆弱性のクロール可能な記述情報をすべて収集し、28のGitベースのWebサイトから脆弱性関連のコード変更をすべて抽出しました。
MegaVulには、2006年1月から2023年10月までの169の異なる脆弱性タイプにまたがる、992のオープンソースリポジトリから収集された17,380の脆弱性が含まれている。
- 参考スコア(独自算出の注目度): 5.821166713605872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We constructed a newly large-scale and comprehensive C/C++ vulnerability dataset named MegaVul by crawling the Common Vulnerabilities and Exposures (CVE) database and CVE-related open-source projects. Specifically, we collected all crawlable descriptive information of the vulnerabilities from the CVE database and extracted all vulnerability-related code changes from 28 Git-based websites. We adopt advanced tools to ensure the extracted code integrality and enrich the code with four different transformed representations. In total, MegaVul contains 17,380 vulnerabilities collected from 992 open-source repositories spanning 169 different vulnerability types disclosed from January 2006 to October 2023. Thus, MegaVul can be used for a variety of software security-related tasks including detecting vulnerabilities and assessing vulnerability severity. All information is stored in the JSON format for easy usage. MegaVul is publicly available on GitHub and will be continuously updated. It can be easily extended to other programming languages.
- Abstract(参考訳): 我々は,Common Vulnerabilities and Exposures(CVE)データベースとCVE関連オープンソースプロジェクトをクロールすることによって,MegaVulという,大規模かつ包括的なC/C++脆弱性データセットを構築した。
具体的には、CVEデータベースから脆弱性のクロール可能な記述情報をすべて収集し、28のGitベースのWebサイトから脆弱性関連のコード変更をすべて抽出しました。
抽出されたコードの整合性を確保し、コードを4つの異なる変換表現で強化するために、高度なツールを採用しています。
MegaVulには、2006年1月から2023年10月までに公開された169の異なる脆弱性タイプにまたがる、992のオープンソースリポジトリから収集された17,380の脆弱性が含まれている。
したがってMegaVulは、脆弱性の検出や脆弱性の深刻度評価など、さまざまなソフトウェアセキュリティ関連のタスクに使用できる。
すべての情報はJSON形式で格納され、簡単に利用できる。
MegaVulはGitHubで公開されており、継続的に更新される。
他のプログラミング言語にも容易に拡張できる。
関連論文リスト
- eyeballvul: a future-proof benchmark for vulnerability detection in the wild [0.0]
eyeballvulは、大規模に言語モデルの脆弱性検出機能をテストするために設計されたベンチマークである。
オープンソースのリポジトリで公開された脆弱性のストリームから、毎週、オープンソースとして公開され、更新されている。
eyeballvulには6,000以上のリビジョンと5,000以上のリポジトリに24,000以上の脆弱性があり、約55GBのサイズである。
論文 参考訳(メタデータ) (2024-07-11T17:46:21Z) - VulZoo: A Comprehensive Vulnerability Intelligence Dataset [12.229092589037808]
VulZooは17の人気の脆弱性情報ソースをカバーする、包括的な脆弱性インテリジェンスデータセットである。
VulZooを一般公開し、今後の研究を容易にするためにインクリメンタルアップデートでメンテナンスしています。
論文 参考訳(メタデータ) (2024-06-24T06:39:07Z) - FV8: A Forced Execution JavaScript Engine for Detecting Evasive Techniques [53.288368877654705]
FV8はJavaScriptコードの回避テクニックを特定するために設計された修正V8 JavaScriptエンジンである。
動的コードを条件付きで注入するAPI上でのコード実行を選択的に実施する。
1,443のnpmパッケージと、少なくとも1つのタイプのエスケープを含む164の(82%)拡張を識別する。
論文 参考訳(メタデータ) (2024-05-21T19:54:19Z) - Just another copy and paste? Comparing the security vulnerabilities of ChatGPT generated code and StackOverflow answers [4.320393382724067]
この研究は、ChatGPTとStackOverflowスニペットの脆弱性を実証的に比較する。
ChatGPTはSOスニペットにある302の脆弱性と比較して248の脆弱性を含んでおり、統計的に有意な差のある20%の脆弱性を生み出した。
この結果から,両プラットフォーム間の安全性の低いコード伝搬について,開発者が教育を受けていないことが示唆された。
論文 参考訳(メタデータ) (2024-03-22T20:06:41Z) - CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。
CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文 参考訳(メタデータ) (2024-03-12T17:55:38Z) - On the Security Blind Spots of Software Composition Analysis [46.1389163921338]
Mavenリポジトリで脆弱性のあるクローンを検出するための新しいアプローチを提案する。
Maven Centralから53万以上の潜在的な脆弱性のあるクローンを検索します。
検出された727個の脆弱なクローンを検出し、それぞれに検証可能な脆弱性証明プロジェクトを合成する。
論文 参考訳(メタデータ) (2023-06-08T20:14:46Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - Detecting Security Patches via Behavioral Data in Code Repositories [11.052678122289871]
Gitリポジトリ内の開発者動作のみを使用して,セキュリティパッチを自動的に識別するシステムを示す。
秘密のセキュリティパッチを88.3%、F1スコア89.8%で公開できることを示しました。
論文 参考訳(メタデータ) (2023-02-04T06:43:07Z) - DeepKE: A Deep Learning Based Knowledge Extraction Toolkit for Knowledge
Base Population [95.0099875111663]
DeepKEは、名前付きエンティティ認識、関係抽出、属性抽出など、さまざまな情報抽出タスクを実装している。
DeepKEを使えば、開発者や研究者はデータセットやモデルをカスタマイズして、要求に応じて構造化されていないデータから情報を抽出できる。
論文 参考訳(メタデータ) (2022-01-10T13:29:05Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - CVEfixes: Automated Collection of Vulnerabilities and Their Fixes from
Open-Source Software [0.0]
完全に自動化されたデータセット収集ツールを実装し、CVEfixesという脆弱性データセットの初期リリースを共有します。
データセットには、プログラミング言語などのメタデータと、5つの抽象化レベルにおける詳細なコードとセキュリティメトリクスが組み込まれている。
CVEfixesは、脆弱性予測、脆弱性分類、脆弱性重大度予測、脆弱性関連コード変更の分析、自動脆弱性修正など、さまざまなタイプのデータ駆動型ソフトウェアセキュリティ研究をサポートしている。
論文 参考訳(メタデータ) (2021-07-19T11:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。