論文の概要: ICVul: A Well-labeled C/C++ Vulnerability Dataset with Comprehensive Metadata and VCCs
- arxiv url: http://arxiv.org/abs/2505.08503v1
- Date: Tue, 13 May 2025 12:33:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.553145
- Title: ICVul: A Well-labeled C/C++ Vulnerability Dataset with Comprehensive Metadata and VCCs
- Title(参考訳): ICVul: 包括的なメタデータとVCCを備えた、十分にラベル付けされたC/C++脆弱性データセット
- Authors: Chaomeng Lu, Tianyu Li, Toon Dehaene, Bert Lagaisse,
- Abstract要約: 機械学習ベースのソフトウェア脆弱性検出には高品質なデータセットが必要である。
ICVulは,データ品質を重視し,包括的メタデータに富んだデータセットである。
データセットは、ユーザビリティとデータの整合性を改善するために、リレーショナルのようなデータベースに格納される。
- 参考スコア(独自算出の注目度): 3.15997226620249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning-based software vulnerability detection requires high-quality datasets, which is essential for training effective models. To address challenges related to data label quality, diversity, and comprehensiveness, we constructed ICVul, a dataset emphasizing data quality and enriched with comprehensive metadata, including Vulnerability-Contributing Commits (VCCs). We began by filtering Common Vulnerabilities and Exposures from the NVD, retaining only those linked to GitHub fix commits. Then we extracted functions and files along with relevant metadata from these commits and used the SZZ algorithm to trace VCCs. To further enhance label reliability, we developed the ESC (Eliminate Suspicious Commit) technique, ensuring credible data labels. The dataset is stored in a relational-like database for improved usability and data integrity. Both ICVul and its construction framework are publicly accessible on GitHub, supporting research in related field.
- Abstract(参考訳): 機械学習ベースのソフトウェア脆弱性検出には高品質なデータセットが必要である。
データラベルの品質、多様性、包括性に関わる課題に対処するため、私たちは、データ品質を強調し、Vulnerability-Contributing Commits (VCCs)を含む包括的なメタデータに富んだデータセットであるIAVulを構築した。
私たちはまず、NVDからCommon VulnerabilitiesとExposuresをフィルタリングし、GitHubの修正コミットに関連するものだけを保持しました。
次に,これらのコミットから関連メタデータとともに関数やファイルを抽出し,VCCの追跡にSZZアルゴリズムを用いた。
ラベル信頼性をさらに高めるため,ESC (Eliminate Suspicious Commit) 技術を開発した。
データセットは、ユーザビリティとデータの整合性を改善するために、リレーショナルのようなデータベースに格納される。
ICVulとその構築フレームワークはGitHubで公開されており、関連する分野の研究をサポートする。
関連論文リスト
- VulZoo: A Comprehensive Vulnerability Intelligence Dataset [12.229092589037808]
VulZooは17の人気の脆弱性情報ソースをカバーする、包括的な脆弱性インテリジェンスデータセットである。
VulZooを一般公開し、今後の研究を容易にするためにインクリメンタルアップデートでメンテナンスしています。
論文 参考訳(メタデータ) (2024-06-24T06:39:07Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Neural Relation Graph: A Unified Framework for Identifying Label Noise
and Outlier Data [44.64190826937705]
本稿では,データのリレーショナルグラフ構造に基づいてラベルエラーや外れ値データを検出するスケーラブルなアルゴリズムを提案する。
また,特徴埋め込み空間におけるデータポイントのコンテキスト情報を提供する可視化ツールも導入した。
提案手法は,検討対象のタスクすべてに対して最先端検出性能を達成し,大規模実世界のデータセットでその有効性を実証する。
論文 参考訳(メタデータ) (2023-01-29T02:09:13Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - ORDisCo: Effective and Efficient Usage of Incremental Unlabeled Data for
Semi-supervised Continual Learning [52.831894583501395]
連続学習は、入力されたデータが完全にラベル付けされていると仮定し、実際のアプリケーションでは適用できないかもしれない。
我々は、条件付き生成逆数ネットワーク(GAN)を用いた分類器を相互に学習するために、識別器整合(ORDisCo)を用いたディープオンライン再生を提案する。
ORDisCo が SSCL の様々な半教師付き学習ベンチマークデータセットで大幅なパフォーマンス向上を達成していることを示します。
論文 参考訳(メタデータ) (2021-01-02T09:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。