論文の概要: Dataflow Analysis-Inspired Deep Learning for Efficient Vulnerability
Detection
- arxiv url: http://arxiv.org/abs/2212.08108v3
- Date: Sun, 1 Oct 2023 20:48:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 20:51:32.081784
- Title: Dataflow Analysis-Inspired Deep Learning for Efficient Vulnerability
Detection
- Title(参考訳): データフロー解析に基づく高速脆弱性検出のためのディープラーニング
- Authors: Benjamin Steenhoek, Hongyang Gao, and Wei Le
- Abstract要約: DeepDFAは、データフロー分析にインスパイアされたグラフ学習フレームワークである。
最高性能のベースラインモデルより75倍速く、9分で訓練された。
平均して17の脆弱性のうち8.7が検出され、パッチとバグの多いバージョンを区別することができた。
- 参考スコア(独自算出の注目度): 17.761541379830373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning-based vulnerability detection has shown great performance and,
in some studies, outperformed static analysis tools. However, the
highest-performing approaches use token-based transformer models, which are not
the most efficient to capture code semantics required for vulnerability
detection. Classical program analysis techniques such as dataflow analysis can
detect many types of bugs based on their root causes. In this paper, we propose
to combine such causal-based vulnerability detection algorithms with deep
learning, aiming to achieve more efficient and effective vulnerability
detection. Specifically, we designed DeepDFA, a dataflow analysis-inspired
graph learning framework and an embedding technique that enables graph learning
to simulate dataflow computation. We show that DeepDFA is both performant and
efficient. DeepDFA outperformed all non-transformer baselines. It was trained
in 9 minutes, 75x faster than the highest-performing baseline model. When using
only 50+ vulnerable and several hundreds of total examples as training data,
the model retained the same performance as 100% of the dataset. DeepDFA also
generalized to real-world vulnerabilities in DbgBench; it detected 8.7 out of
17 vulnerabilities on average across folds and was able to distinguish between
patched and buggy versions, while the highest-performing baseline models did
not detect any vulnerabilities. By combining DeepDFA with a large language
model, we surpassed the state-of-the-art vulnerability detection performance on
the Big-Vul dataset with 96.46 F1 score, 97.82 precision, and 95.14 recall. Our
replication package is located at https://doi.org/10.6084/m9.figshare.21225413 .
- Abstract(参考訳): ディープラーニングベースの脆弱性検出は優れたパフォーマンスを示しており、いくつかの研究では静的解析ツールよりも優れています。
しかし、最もパフォーマンスの高いアプローチはトークンベースのトランスフォーマーモデルを使用しており、脆弱性検出に必要なコードセマンティクスをキャプチャするのに最も効率的ではない。
データフロー分析のような古典的なプログラム分析技術は、その根本原因に基づいて多くの種類のバグを検出することができる。
本稿では,このような因果的脆弱性検出アルゴリズムをディープラーニングと組み合わせ,より効率的かつ効果的な脆弱性検出を実現することを目的とする。
具体的には、データフロー分析に触発されたグラフ学習フレームワークであるdeepdfaと、グラフ学習によってデータフロー計算をシミュレートする埋め込み技術を設計した。
DeepDFAはパフォーマンスと効率が両立していることを示す。
DeepDFAはすべての非トランスフォーマーベースラインを上回った。
最高性能のベースラインモデルより75倍速く、9分で訓練された。
トレーニングデータとして50以上の脆弱性と数百のサンプルを使用する場合、モデルはデータセットの100%と同じパフォーマンスを維持した。
DeepDFAはまた、DbgBenchの現実世界の脆弱性を一般化し、フォールド全体の17の脆弱性のうち8.7を検知し、パッチとバグの多いバージョンを区別することができた。
deepdfaを大規模言語モデルと組み合わせることで,96.46 f1スコア,97.82精度,95.14リコールという,big-vulデータセットの最先端脆弱性検出性能を上回った。
レプリケーションパッケージはhttps://doi.org/10.6084/m9.figshare.21225413にあります。
関連論文リスト
- Revisiting the Performance of Deep Learning-Based Vulnerability Detection on Realistic Datasets [4.385369356819613]
本稿では,脆弱性検出モデルを評価するための実世界のシナリオを表すデータセットであるReal-Vulを紹介する。
DeepWukong、LineVul、ReVeal、IVDetectの評価では、パフォーマンスが大幅に低下し、精度は95パーセントまで低下し、F1スコアは91ポイントまで低下した。
オーバーフィッティングは重要な問題として認識され、改善手法が提案され、パフォーマンスが最大30%向上する可能性がある。
論文 参考訳(メタデータ) (2024-07-03T13:34:30Z) - Enhancing Code Vulnerability Detection via Vulnerability-Preserving Data Augmentation [29.72520866016839]
ソースコードの脆弱性検出は、潜在的な攻撃からソフトウェアシステムを保護するための固有の脆弱性を特定することを目的としている。
多くの先行研究は、様々な脆弱性の特徴を見落とし、問題をバイナリ(0-1)分類タスクに単純化した。
FGVulDetは、さまざまな脆弱性タイプの特徴を識別するために複数の分類器を使用し、その出力を組み合わせて特定の脆弱性タイプを特定する。
FGVulDetはGitHubの大規模なデータセットでトレーニングされており、5種類の脆弱性を含んでいる。
論文 参考訳(メタデータ) (2024-04-15T09:10:52Z) - Vulnerability Detection with Code Language Models: How Far Are We? [40.455600722638906]
PrimeVulは、脆弱性検出のためのコードLMのトレーニングと評価のための新しいデータセットである。
これは、人間の検証されたベンチマークに匹敵するラベルの精度を達成する、新しいデータラベリング技術を含んでいる。
また、厳密なデータ重複解消戦略と時系列データ分割戦略を実装して、データの漏洩問題を軽減している。
論文 参考訳(メタデータ) (2024-03-27T14:34:29Z) - Can An Old Fashioned Feature Extraction and A Light-weight Model Improve
Vulnerability Type Identification Performance? [6.423483122892239]
脆弱性型識別(VTI)の問題点について検討する。
我々は、大規模な脆弱性セットに基づいて、VTIのためのよく知られた、先進的な事前訓練モデルの性能を評価する。
ベースラインアプローチの予測を洗練させるために,軽量な独立コンポーネントを導入する。
論文 参考訳(メタデータ) (2023-06-26T14:28:51Z) - Black-box Dataset Ownership Verification via Backdoor Watermarking [67.69308278379957]
我々は、リリースデータセットの保護を、(目立たしい)サードパーティモデルのトレーニングに採用されているかどうかの検証として定式化する。
バックドアの透かしを通じて外部パターンを埋め込んでオーナシップの検証を行い,保護することを提案する。
具体的には、有毒なバックドア攻撃(例えばBadNets)をデータセットのウォーターマーキングに利用し、データセット検証のための仮説テストガイダンスメソッドを設計する。
論文 参考訳(メタデータ) (2022-08-04T05:32:20Z) - Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。
シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T19:57:19Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - Semantic Perturbations with Normalizing Flows for Improved
Generalization [62.998818375912506]
我々は、非教師付きデータ拡張を定義するために、潜在空間における摂動が利用できることを示す。
トレーニングを通して分類器に適応する潜伏性対向性摂動が最も効果的であることが判明した。
論文 参考訳(メタデータ) (2021-08-18T03:20:00Z) - Bayesian Optimization with Machine Learning Algorithms Towards Anomaly
Detection [66.05992706105224]
本稿では,ベイズ最適化手法を用いた効果的な異常検出フレームワークを提案する。
ISCX 2012データセットを用いて検討したアルゴリズムの性能を評価する。
実験結果から, 精度, 精度, 低コストアラームレート, リコールの観点から, 提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-08-05T19:29:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。