論文の概要: DeepDFA: Dataflow Analysis-Guided Efficient Graph Learning for
Vulnerability Detection
- arxiv url: http://arxiv.org/abs/2212.08108v1
- Date: Thu, 15 Dec 2022 19:49:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 16:33:52.298641
- Title: DeepDFA: Dataflow Analysis-Guided Efficient Graph Learning for
Vulnerability Detection
- Title(参考訳): deepdfa: データフロー分析による効率的なグラフ学習による脆弱性検出
- Authors: Benjamin Steenhoek, Wei Le, and Hongyang Gao
- Abstract要約: 本稿では,データフロー解析によるグラフ学習フレームワークDeepDFAと,脆弱性検出のための埋め込みについて述べる。
DeepDFAはリコールで第1位で、まず目に見えないプロジェクトを一般化し、F1で第2位にランクインした。
パラメータの数に関しても最小のモデルであり、最高性能のベースラインの69倍の9分でトレーニングされた。
- 参考スコア(独自算出の注目度): 17.654350836042813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning-based vulnerability detection models have recently been shown
to be effective and, in some cases, outperform static analysis tools. However,
the highest-performing approaches use token-based transformer models, which do
not leverage domain knowledge. Classical program analysis techniques such as
dataflow analysis can detect many types of bugs and are the most commonly used
methods in practice. Motivated by the causal relationship between bugs and
dataflow analysis, we present DeepDFA, a dataflow analysis-guided graph
learning framework and embedding that uses program semantic features for
vulnerability detection. We show that DeepDFA is performant and efficient.
DeepDFA ranked first in recall, first in generalizing over unseen projects, and
second in F1 among all the state-of-the-art models we experimented with. It is
also the smallest model in terms of the number of parameters, and was trained
in 9 minutes, 69x faster than the highest-performing baseline. DeepDFA can be
used with other models. By integrating LineVul and DeepDFA, we achieved the
best vulnerability detection performance of 96.4 F1 score, 98.69 precision, and
94.22 recall.
- Abstract(参考訳): ディープラーニングベースの脆弱性検出モデルは、最近有効であることが示され、場合によっては静的解析ツールよりも優れている。
しかし、高いパフォーマンスのアプローチでは、ドメイン知識を活用できないトークンベースのトランスフォーマーモデルを使用する。
データフロー分析のような古典的なプログラム解析技術は、多くの種類のバグを検知でき、実際最も一般的に使われているメソッドである。
本稿では,バグとデータフロー解析の因果関係に触発され,脆弱性検出にプログラムセマンティック機能を利用するデータフロー解析誘導グラフ学習フレームワークDeepDFAを提案する。
DeepDFAは高性能かつ効率的であることを示す。
DeepDFAはリコールで第1位で、まず目に見えないプロジェクトを一般化し、F1で第2位にランクインした。
また、パラメータ数では最小のモデルであり、最高パフォーマンスのベースラインよりも9分69倍高速でトレーニングされた。
deepdfaは他のモデルでも使用できる。
LineVulとDeepDFAを統合することで、96.4 F1スコア、98.69精度、94.22リコールの最高の脆弱性検出性能を達成した。
関連論文リスト
- Limits of Machine Learning for Automatic Vulnerability Detection [0.0]
自動脆弱性検出のための機械学習の最近の成果は非常に有望である。
しかし、これらの結果が一般的なものであり、データセットに特有でないことをどうやって知るのか?
トレーニングセットまたはテストセットの増幅中に意味保存変換を適用するクロスバリデーションアルゴリズムを提案する。
改善されたロバスト性は、トレーニングデータ増幅時に使用される特定の変換にのみ適用される。
論文 参考訳(メタデータ) (2023-06-28T08:41:39Z) - Can An Old Fashioned Feature Extraction and A Light-weight Model Improve
Vulnerability Type Identification Performance? [6.423483122892239]
脆弱性型識別(VTI)の問題点について検討する。
我々は、大規模な脆弱性セットに基づいて、VTIのためのよく知られた、先進的な事前訓練モデルの性能を評価する。
ベースラインアプローチの予測を洗練させるために,軽量な独立コンポーネントを導入する。
論文 参考訳(メタデータ) (2023-06-26T14:28:51Z) - Learning to Quantize Vulnerability Patterns and Match to Locate
Statement-Level Vulnerabilities [19.6975205650411]
さまざまな脆弱性パターンを表す量子化されたベクトルで構成される脆弱性コードブックが学習される。
推論の間、コードブックは、すべての学習パターンにマッチし、潜在的な脆弱性の存在を予測するために反復される。
提案手法は188,000以上のC/C++関数からなる実世界のデータセットに対して広範に評価された。
論文 参考訳(メタデータ) (2023-05-26T04:13:31Z) - DiverseVul: A New Vulnerable Source Code Dataset for Deep Learning Based
Vulnerability Detection [29.52887618905746]
このデータセットには、150のCWEにまたがる18,945の脆弱性関数と、7,514のコミットから抽出された330,492の非脆弱性関数が含まれている。
以上の結果から,高い偽陽性率,低いF1スコア,難解なCWEの検出が困難であったため,ディープラーニングは依然として脆弱性検出の準備が整っていないことが示唆された。
大規模言語モデル(LLM)はMLベースの脆弱性検出において有望な研究方向であり,コード構造を持つグラフニューラルネットワーク(GNN)よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-01T23:29:14Z) - Black-box Dataset Ownership Verification via Backdoor Watermarking [67.69308278379957]
我々は、リリースデータセットの保護を、(目立たしい)サードパーティモデルのトレーニングに採用されているかどうかの検証として定式化する。
バックドアの透かしを通じて外部パターンを埋め込んでオーナシップの検証を行い,保護することを提案する。
具体的には、有毒なバックドア攻撃(例えばBadNets)をデータセットのウォーターマーキングに利用し、データセット検証のための仮説テストガイダンスメソッドを設計する。
論文 参考訳(メタデータ) (2022-08-04T05:32:20Z) - Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。
シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T19:57:19Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - Semantic Perturbations with Normalizing Flows for Improved
Generalization [62.998818375912506]
我々は、非教師付きデータ拡張を定義するために、潜在空間における摂動が利用できることを示す。
トレーニングを通して分類器に適応する潜伏性対向性摂動が最も効果的であることが判明した。
論文 参考訳(メタデータ) (2021-08-18T03:20:00Z) - Bayesian Optimization with Machine Learning Algorithms Towards Anomaly
Detection [66.05992706105224]
本稿では,ベイズ最適化手法を用いた効果的な異常検出フレームワークを提案する。
ISCX 2012データセットを用いて検討したアルゴリズムの性能を評価する。
実験結果から, 精度, 精度, 低コストアラームレート, リコールの観点から, 提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-08-05T19:29:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。