Fugu-MT 論文翻訳(概要): ICVul: A Well-labeled C/C++ Vulnerability Dataset with Comprehensive Metadata and VCCs

論文の概要: ICVul: A Well-labeled C/C++ Vulnerability Dataset with Comprehensive Metadata and VCCs

arxiv url: http://arxiv.org/abs/2505.08503v1
Date: Tue, 13 May 2025 12:33:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-14 20:57:54.553145
Title: ICVul: A Well-labeled C/C++ Vulnerability Dataset with Comprehensive Metadata and VCCs
Title（参考訳）: ICVul: 包括的なメタデータとVCCを備えた、十分にラベル付けされたC/C++脆弱性データセット
Authors: Chaomeng Lu, Tianyu Li, Toon Dehaene, Bert Lagaisse,
Abstract要約: 機械学習ベースのソフトウェア脆弱性検出には高品質なデータセットが必要である。 ICVulは,データ品質を重視し,包括的メタデータに富んだデータセットである。データセットは、ユーザビリティとデータの整合性を改善するために、リレーショナルのようなデータベースに格納される。
参考スコア（独自算出の注目度）: 3.15997226620249
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Machine learning-based software vulnerability detection requires high-quality datasets, which is essential for training effective models. To address challenges related to data label quality, diversity, and comprehensiveness, we constructed ICVul, a dataset emphasizing data quality and enriched with comprehensive metadata, including Vulnerability-Contributing Commits (VCCs). We began by filtering Common Vulnerabilities and Exposures from the NVD, retaining only those linked to GitHub fix commits. Then we extracted functions and files along with relevant metadata from these commits and used the SZZ algorithm to trace VCCs. To further enhance label reliability, we developed the ESC (Eliminate Suspicious Commit) technique, ensuring credible data labels. The dataset is stored in a relational-like database for improved usability and data integrity. Both ICVul and its construction framework are publicly accessible on GitHub, supporting research in related field.
Abstract（参考訳）: 機械学習ベースのソフトウェア脆弱性検出には高品質なデータセットが必要である。データラベルの品質、多様性、包括性に関わる課題に対処するため、私たちは、データ品質を強調し、Vulnerability-Contributing Commits (VCCs)を含む包括的なメタデータに富んだデータセットであるIAVulを構築した。私たちはまず、NVDからCommon VulnerabilitiesとExposuresをフィルタリングし、GitHubの修正コミットに関連するものだけを保持しました。次に,これらのコミットから関連メタデータとともに関数やファイルを抽出し,VCCの追跡にSZZアルゴリズムを用いた。ラベル信頼性をさらに高めるため,ESC (Eliminate Suspicious Commit) 技術を開発した。データセットは、ユーザビリティとデータの整合性を改善するために、リレーショナルのようなデータベースに格納される。 ICVulとその構築フレームワークはGitHubで公開されており、関連する分野の研究をサポートする。

関連論文リスト

Cross-Dataset Semantic Segmentation Performance Analysis: Unifying NIST Point Cloud City Datasets for 3D Deep Learning [49.1574468325115]
本研究では、公共安全アプリケーションに関連する異種ラベル付きポイントクラウドデータセット間のセマンティックセマンティックセマンティクス性能を解析する。主な課題は、ラベル付きデータ不足、データセット間でクラスラベルを統一することの難しさ、標準化の必要性である。
論文参考訳（メタデータ） (2025-08-01T17:59:02Z)
FORGE: An LLM-driven Framework for Large-Scale Smart Contract Vulnerability Dataset Construction [34.20628333535654]
FORGEはスマートコントラクト脆弱性データセットを構築するための最初の自動化アプローチである。 81,390のソリッドリティファイルと27,497の脆弱性を296のCWEカテゴリに分類したデータセットを生成した。その結果、現在の検出能力の重大な制限が明らかになった。
論文参考訳（メタデータ） (2025-06-23T16:03:16Z)
OSPtrack: A Labeled Dataset Targeting Simulated Execution of Open-Source Software [0.0]
このデータセットには9,461のパッケージレポートが含まれており、そのうち1,962が悪意のあるものである。データセットには、ファイル、ソケット、コマンド、DNSレコードなどの静的および動的機能が含まれている。このデータセットは実行時検出をサポートし、検出モデルトレーニングを強化し、エコシステム間の効率的な比較分析を可能にする。
論文参考訳（メタデータ） (2024-11-22T10:07:42Z)
VulZoo: A Comprehensive Vulnerability Intelligence Dataset [12.229092589037808]
VulZooは17の人気の脆弱性情報ソースをカバーする、包括的な脆弱性インテリジェンスデータセットである。 VulZooを一般公開し、今後の研究を容易にするためにインクリメンタルアップデートでメンテナンスしています。
論文参考訳（メタデータ） (2024-06-24T06:39:07Z)
On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-24T14:01:53Z)
Neural Relation Graph: A Unified Framework for Identifying Label Noise and Outlier Data [44.64190826937705]
本稿では,データのリレーショナルグラフ構造に基づいてラベルエラーや外れ値データを検出するスケーラブルなアルゴリズムを提案する。また,特徴埋め込み空間におけるデータポイントのコンテキスト情報を提供する可視化ツールも導入した。提案手法は,検討対象のタスクすべてに対して最先端検出性能を達成し,大規模実世界のデータセットでその有効性を実証する。
論文参考訳（メタデータ） (2023-01-29T02:09:13Z)
DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文参考訳（メタデータ） (2022-07-20T17:47:54Z)
Building Inspection Toolkit: Unified Evaluation and Strong Baselines for Damage Recognition [0.0]
損傷認識の分野において、関連するオープンソースデータセットを含むデータハブを簡易に使用するためのビルディングインスペクションツールキット -- bikit -- を紹介します。データセットには評価分割と事前定義されたメトリクスが組み込まれており、特定のタスクとそのデータ分布に適合する。この領域の研究者のモチベーションを高めるために、私たちはリーダーボードとモデルの重みをコミュニティと共有する可能性も提供します。
論文参考訳（メタデータ） (2022-02-14T20:05:59Z)
VELVET: a noVel Ensemble Learning approach to automatically locate VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。 VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文参考訳（メタデータ） (2021-12-20T22:45:27Z)
The Problem of Zombie Datasets:A Framework For Deprecating Datasets [55.878249096379804]
我々は、ImageNet、8000 Million Tiny Images、MS-Celeb-1M、Duke MTMC、Brainwash、HRT Transgenderなど、いくつかの著名なデータセットの公開後処理について検討する。本稿では,リスクの考慮,影響の緩和,アピール機構,タイムライン,非推奨プロトコル,公開チェックなどを含むデータセットの非推奨化フレームワークを提案する。
論文参考訳（メタデータ） (2021-10-18T20:13:51Z)
ORDisCo: Effective and Efficient Usage of Incremental Unlabeled Data for Semi-supervised Continual Learning [52.831894583501395]
連続学習は、入力されたデータが完全にラベル付けされていると仮定し、実際のアプリケーションでは適用できないかもしれない。我々は、条件付き生成逆数ネットワーク(GAN)を用いた分類器を相互に学習するために、識別器整合(ORDisCo)を用いたディープオンライン再生を提案する。 ORDisCo が SSCL の様々な半教師付き学習ベンチマークデータセットで大幅なパフォーマンス向上を達成していることを示します。
論文参考訳（メタデータ） (2021-01-02T09:04:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。