論文の概要: DeepDFA: Dataflow Analysis-Guided Efficient Graph Learning for
Vulnerability Detection
- arxiv url: http://arxiv.org/abs/2212.08108v1
- Date: Thu, 15 Dec 2022 19:49:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 16:33:52.298641
- Title: DeepDFA: Dataflow Analysis-Guided Efficient Graph Learning for
Vulnerability Detection
- Title(参考訳): deepdfa: データフロー分析による効率的なグラフ学習による脆弱性検出
- Authors: Benjamin Steenhoek, Wei Le, and Hongyang Gao
- Abstract要約: 本稿では,データフロー解析によるグラフ学習フレームワークDeepDFAと,脆弱性検出のための埋め込みについて述べる。
DeepDFAはリコールで第1位で、まず目に見えないプロジェクトを一般化し、F1で第2位にランクインした。
パラメータの数に関しても最小のモデルであり、最高性能のベースラインの69倍の9分でトレーニングされた。
- 参考スコア(独自算出の注目度): 17.654350836042813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning-based vulnerability detection models have recently been shown
to be effective and, in some cases, outperform static analysis tools. However,
the highest-performing approaches use token-based transformer models, which do
not leverage domain knowledge. Classical program analysis techniques such as
dataflow analysis can detect many types of bugs and are the most commonly used
methods in practice. Motivated by the causal relationship between bugs and
dataflow analysis, we present DeepDFA, a dataflow analysis-guided graph
learning framework and embedding that uses program semantic features for
vulnerability detection. We show that DeepDFA is performant and efficient.
DeepDFA ranked first in recall, first in generalizing over unseen projects, and
second in F1 among all the state-of-the-art models we experimented with. It is
also the smallest model in terms of the number of parameters, and was trained
in 9 minutes, 69x faster than the highest-performing baseline. DeepDFA can be
used with other models. By integrating LineVul and DeepDFA, we achieved the
best vulnerability detection performance of 96.4 F1 score, 98.69 precision, and
94.22 recall.
- Abstract(参考訳): ディープラーニングベースの脆弱性検出モデルは、最近有効であることが示され、場合によっては静的解析ツールよりも優れている。
しかし、高いパフォーマンスのアプローチでは、ドメイン知識を活用できないトークンベースのトランスフォーマーモデルを使用する。
データフロー分析のような古典的なプログラム解析技術は、多くの種類のバグを検知でき、実際最も一般的に使われているメソッドである。
本稿では,バグとデータフロー解析の因果関係に触発され,脆弱性検出にプログラムセマンティック機能を利用するデータフロー解析誘導グラフ学習フレームワークDeepDFAを提案する。
DeepDFAは高性能かつ効率的であることを示す。
DeepDFAはリコールで第1位で、まず目に見えないプロジェクトを一般化し、F1で第2位にランクインした。
また、パラメータ数では最小のモデルであり、最高パフォーマンスのベースラインよりも9分69倍高速でトレーニングされた。
deepdfaは他のモデルでも使用できる。
LineVulとDeepDFAを統合することで、96.4 F1スコア、98.69精度、94.22リコールの最高の脆弱性検出性能を達成した。
関連論文リスト
- DFEPT: Data Flow Embedding for Enhancing Pre-Trained Model Based Vulnerability Detection [7.802093464108404]
本稿では,脆弱性検出タスクにおける事前学習モデルの性能向上を目的としたデータフロー埋め込み手法を提案する。
具体的には,関数レベルのソースコードからデータフローグラフを解析し,DFGのノード特性として変数のデータ型を使用する。
我々の研究は、DFEPTが事前訓練されたモデルに効果的な脆弱性セマンティック情報を提供し、Devignデータセットで64.97%、Revealデータセットで47.9%のF1スコアを達成できることを示している。
論文 参考訳(メタデータ) (2024-10-24T07:05:07Z) - Revisiting the Performance of Deep Learning-Based Vulnerability Detection on Realistic Datasets [4.385369356819613]
本稿では,脆弱性検出モデルを評価するための実世界のシナリオを表すデータセットであるReal-Vulを紹介する。
DeepWukong、LineVul、ReVeal、IVDetectの評価では、パフォーマンスが大幅に低下し、精度は95パーセントまで低下し、F1スコアは91ポイントまで低下した。
オーバーフィッティングは重要な問題として認識され、改善手法が提案され、パフォーマンスが最大30%向上する可能性がある。
論文 参考訳(メタデータ) (2024-07-03T13:34:30Z) - Vulnerability Detection with Code Language Models: How Far Are We? [40.455600722638906]
PrimeVulは、脆弱性検出のためのコードLMのトレーニングと評価のための新しいデータセットである。
これは、人間の検証されたベンチマークに匹敵するラベルの精度を達成する、新しいデータラベリング技術を含んでいる。
また、厳密なデータ重複解消戦略と時系列データ分割戦略を実装して、データの漏洩問題を軽減している。
論文 参考訳(メタデータ) (2024-03-27T14:34:29Z) - CrossDF: Improving Cross-Domain Deepfake Detection with Deep Information Decomposition [53.860796916196634]
クロスデータセットディープフェイク検出(CrossDF)の性能を高めるためのディープ情報分解(DID)フレームワークを提案する。
既存のディープフェイク検出方法とは異なり、我々のフレームワークは特定の視覚的アーティファクトよりも高いレベルのセマンティック特徴を優先する。
顔の特徴をディープフェイク関連情報と無関係情報に適応的に分解し、本質的なディープフェイク関連情報のみを用いてリアルタイム・フェイク識別を行う。
論文 参考訳(メタデータ) (2023-09-30T12:30:25Z) - Can An Old Fashioned Feature Extraction and A Light-weight Model Improve
Vulnerability Type Identification Performance? [6.423483122892239]
脆弱性型識別(VTI)の問題点について検討する。
我々は、大規模な脆弱性セットに基づいて、VTIのためのよく知られた、先進的な事前訓練モデルの性能を評価する。
ベースラインアプローチの予測を洗練させるために,軽量な独立コンポーネントを導入する。
論文 参考訳(メタデータ) (2023-06-26T14:28:51Z) - Black-box Dataset Ownership Verification via Backdoor Watermarking [67.69308278379957]
我々は、リリースデータセットの保護を、(目立たしい)サードパーティモデルのトレーニングに採用されているかどうかの検証として定式化する。
バックドアの透かしを通じて外部パターンを埋め込んでオーナシップの検証を行い,保護することを提案する。
具体的には、有毒なバックドア攻撃(例えばBadNets)をデータセットのウォーターマーキングに利用し、データセット検証のための仮説テストガイダンスメソッドを設計する。
論文 参考訳(メタデータ) (2022-08-04T05:32:20Z) - Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。
シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T19:57:19Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - Semantic Perturbations with Normalizing Flows for Improved
Generalization [62.998818375912506]
我々は、非教師付きデータ拡張を定義するために、潜在空間における摂動が利用できることを示す。
トレーニングを通して分類器に適応する潜伏性対向性摂動が最も効果的であることが判明した。
論文 参考訳(メタデータ) (2021-08-18T03:20:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。