論文の概要: DiverseVul: A New Vulnerable Source Code Dataset for Deep Learning Based
Vulnerability Detection
- arxiv url: http://arxiv.org/abs/2304.00409v1
- Date: Sat, 1 Apr 2023 23:29:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 18:16:30.251409
- Title: DiverseVul: A New Vulnerable Source Code Dataset for Deep Learning Based
Vulnerability Detection
- Title(参考訳): diversevul:深層学習に基づく脆弱性検出のための新しい脆弱なソースコードデータセット
- Authors: Yizheng Chen, Zhoujie Ding, Xinyun Chen, David Wagner
- Abstract要約: トレーニングデータの多様性と量の増加は、脆弱性検出のためのディープラーニングモデルの性能を向上させることを示す。
以上の結果から,高い偽陽性率,低いF1スコア,難解なCWEの検出が困難であったため,ディープラーニングは依然として脆弱性検出の準備が整っていないことが示唆された。
我々は,大規模言語モデル(LLM)が脆弱性検出の未来であり,手動機能工学によるグラフニューラルネットワーク(GNN)よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 32.258175896543634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose and release a new vulnerable source code dataset. We curate the
dataset by crawling security issue websites, extracting vulnerability-fixing
commits and source codes from the corresponding projects. Our new dataset
contains 150 CWEs, 26,635 vulnerable functions, and 352,606 non-vulnerable
functions extracted from 7,861 commits. Our dataset covers 305 more projects
than all previous datasets combined. We show that increasing the diversity and
volume of training data improves the performance of deep learning models for
vulnerability detection.
Combining our new dataset with previous datasets, we present an analysis of
the challenges and promising research directions of using deep learning for
detecting software vulnerabilities. We study 11 model architectures belonging
to 4 families. Our results show that deep learning is still not ready for
vulnerability detection, due to high false positive rate, low F1 score, and
difficulty of detecting hard CWEs. In particular, we demonstrate an important
generalization challenge for the deployment of deep learning-based models.
However, we also identify hopeful future research directions. We demonstrate
that large language models (LLMs) are the future for vulnerability detection,
outperforming Graph Neural Networks (GNNs) with manual feature engineering.
Moreover, developing source code specific pre-training objectives is a
promising research direction to improve the vulnerability detection
performance.
- Abstract(参考訳): 我々は、新しい脆弱なソースコードデータセットを提案し、リリースする。
セキュリティ問題サイトをクロールしてデータセットをキュレートし、対応するプロジェクトから脆弱性修正コミットとソースコードを抽出します。
新しいデータセットには、150のcwe、26,635の脆弱な関数、そして7,861のコミットから抽出された352,606の非vulnerable関数が含まれています。
私たちのデータセットは、以前のすべてのデータセットの合計よりも305以上のプロジェクトをカバーしています。
トレーニングデータの多様性と量の増加は、脆弱性検出のためのディープラーニングモデルの性能を向上させることを示す。
新しいデータセットと過去のデータセットを組み合わせることで、ソフトウェア脆弱性の検出にディープラーニングを使用することによる課題の分析と、有望な研究方向性を示す。
4家族11のモデルアーキテクチャについて検討した。
以上の結果から,高い偽陽性率,低いF1スコア,ハードなCWEの検出が困難であるため,ディープラーニングは依然として脆弱性検出の準備ができていないことが明らかとなった。
特に,深層学習モデルの導入において重要な一般化課題を提示する。
しかし、将来的な研究の方向性も明らかにする。
我々は,大規模言語モデル(LLM)が脆弱性検出の未来であり,手動機能工学によるグラフニューラルネットワーク(GNN)よりも優れていることを示す。
さらに、ソースコード固有の事前学習目標の開発は、脆弱性検出性能を改善するための有望な研究方向である。
関連論文リスト
- Enhancing Code Vulnerability Detection via Vulnerability-Preserving Data Augmentation [29.72520866016839]
ソースコードの脆弱性検出は、潜在的な攻撃からソフトウェアシステムを保護するための固有の脆弱性を特定することを目的としている。
多くの先行研究は、様々な脆弱性の特徴を見落とし、問題をバイナリ(0-1)分類タスクに単純化した。
FGVulDetは、さまざまな脆弱性タイプの特徴を識別するために複数の分類器を使用し、その出力を組み合わせて特定の脆弱性タイプを特定する。
FGVulDetはGitHubの大規模なデータセットでトレーニングされており、5種類の脆弱性を含んでいる。
論文 参考訳(メタデータ) (2024-04-15T09:10:52Z) - Vulnerability Detection with Code Language Models: How Far Are We? [40.455600722638906]
PrimeVulは、脆弱性検出のためのコードLMのトレーニングと評価のための新しいデータセットである。
これは、人間の検証されたベンチマークに匹敵するラベルの精度を達成する、新しいデータラベリング技術を含んでいる。
また、厳密なデータ重複解消戦略と時系列データ分割戦略を実装して、データの漏洩問題を軽減している。
論文 参考訳(メタデータ) (2024-03-27T14:34:29Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - How Far Have We Gone in Vulnerability Detection Using Large Language
Models [15.09461331135668]
包括的な脆弱性ベンチマークであるVulBenchを紹介します。
このベンチマークは、幅広いCTF課題と実世界のアプリケーションから高品質なデータを集約する。
いくつかのLSMは、脆弱性検出における従来のディープラーニングアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-21T08:20:39Z) - Deep networks for system identification: a Survey [56.34005280792013]
システム識別は、入力出力データから動的システムの数学的記述を学習する。
同定されたモデルの主な目的は、以前の観測から新しいデータを予測することである。
我々は、フィードフォワード、畳み込み、リカレントネットワークなどの文献で一般的に採用されているアーキテクチャについて論じる。
論文 参考訳(メタデータ) (2023-01-30T12:38:31Z) - Dataflow Analysis-Inspired Deep Learning for Efficient Vulnerability
Detection [17.761541379830373]
DeepDFAは、データフロー分析にインスパイアされたグラフ学習フレームワークである。
最高性能のベースラインモデルより75倍速く、9分で訓練された。
平均して17の脆弱性のうち8.7が検出され、パッチとバグの多いバージョンを区別することができた。
論文 参考訳(メタデータ) (2022-12-15T19:49:27Z) - A Survey of Learning on Small Data: Generalization, Optimization, and
Challenge [101.27154181792567]
ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。
この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。
効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
論文 参考訳(メタデータ) (2022-07-29T02:34:19Z) - Weakly Supervised Change Detection Using Guided Anisotropic Difusion [97.43170678509478]
我々は、このようなデータセットを変更検出の文脈で活用するのに役立つ独自のアイデアを提案する。
まず,意味的セグメンテーション結果を改善する誘導異方性拡散(GAD)アルゴリズムを提案する。
次に、変化検出に適した2つの弱い教師付き学習戦略の可能性を示す。
論文 参考訳(メタデータ) (2021-12-31T10:03:47Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - Information Obfuscation of Graph Neural Networks [96.8421624921384]
本稿では,グラフ構造化データを用いた学習において,情報難読化による機密属性保護の問題について検討する。
本稿では,全変動量とワッサーシュタイン距離を交互に学習することで,事前決定された機密属性を局所的にフィルタリングするフレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-28T17:55:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。