Fugu-MT 論文翻訳(概要): Dataflow Analysis-Inspired Deep Learning for Efficient Vulnerability Detection

論文の概要: Dataflow Analysis-Inspired Deep Learning for Efficient Vulnerability Detection

arxiv url: http://arxiv.org/abs/2212.08108v3
Date: Sun, 1 Oct 2023 20:48:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-03 20:51:32.081784
Title: Dataflow Analysis-Inspired Deep Learning for Efficient Vulnerability Detection
Title（参考訳）: データフロー解析に基づく高速脆弱性検出のためのディープラーニング
Authors: Benjamin Steenhoek, Hongyang Gao, and Wei Le
Abstract要約: DeepDFAは、データフロー分析にインスパイアされたグラフ学習フレームワークである。最高性能のベースラインモデルより75倍速く、9分で訓練された。平均して17の脆弱性のうち8.7が検出され、パッチとバグの多いバージョンを区別することができた。
参考スコア（独自算出の注目度）: 17.761541379830373
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep learning-based vulnerability detection has shown great performance and, in some studies, outperformed static analysis tools. However, the highest-performing approaches use token-based transformer models, which are not the most efficient to capture code semantics required for vulnerability detection. Classical program analysis techniques such as dataflow analysis can detect many types of bugs based on their root causes. In this paper, we propose to combine such causal-based vulnerability detection algorithms with deep learning, aiming to achieve more efficient and effective vulnerability detection. Specifically, we designed DeepDFA, a dataflow analysis-inspired graph learning framework and an embedding technique that enables graph learning to simulate dataflow computation. We show that DeepDFA is both performant and efficient. DeepDFA outperformed all non-transformer baselines. It was trained in 9 minutes, 75x faster than the highest-performing baseline model. When using only 50+ vulnerable and several hundreds of total examples as training data, the model retained the same performance as 100% of the dataset. DeepDFA also generalized to real-world vulnerabilities in DbgBench; it detected 8.7 out of 17 vulnerabilities on average across folds and was able to distinguish between patched and buggy versions, while the highest-performing baseline models did not detect any vulnerabilities. By combining DeepDFA with a large language model, we surpassed the state-of-the-art vulnerability detection performance on the Big-Vul dataset with 96.46 F1 score, 97.82 precision, and 95.14 recall. Our replication package is located at https://doi.org/10.6084/m9.figshare.21225413 .
Abstract（参考訳）: ディープラーニングベースの脆弱性検出は優れたパフォーマンスを示しており、いくつかの研究では静的解析ツールよりも優れています。しかし、最もパフォーマンスの高いアプローチはトークンベースのトランスフォーマーモデルを使用しており、脆弱性検出に必要なコードセマンティクスをキャプチャするのに最も効率的ではない。データフロー分析のような古典的なプログラム分析技術は、その根本原因に基づいて多くの種類のバグを検出することができる。本稿では,このような因果的脆弱性検出アルゴリズムをディープラーニングと組み合わせ,より効率的かつ効果的な脆弱性検出を実現することを目的とする。具体的には、データフロー分析に触発されたグラフ学習フレームワークであるdeepdfaと、グラフ学習によってデータフロー計算をシミュレートする埋め込み技術を設計した。 DeepDFAはパフォーマンスと効率が両立していることを示す。 DeepDFAはすべての非トランスフォーマーベースラインを上回った。最高性能のベースラインモデルより75倍速く、9分で訓練された。トレーニングデータとして50以上の脆弱性と数百のサンプルを使用する場合、モデルはデータセットの100%と同じパフォーマンスを維持した。 DeepDFAはまた、DbgBenchの現実世界の脆弱性を一般化し、フォールド全体の17の脆弱性のうち8.7を検知し、パッチとバグの多いバージョンを区別することができた。 deepdfaを大規模言語モデルと組み合わせることで,96.46 f1スコア,97.82精度,95.14リコールという,big-vulデータセットの最先端脆弱性検出性能を上回った。レプリケーションパッケージはhttps://doi.org/10.6084/m9.figshare.21225413にあります。

関連論文リスト

SHERLOCK: A Deep Learning Approach To Detect Software Vulnerabilities [0.0]
ソフトウェアの脆弱性は、セキュリティ侵害、データ盗難、その他のネガティブな結果につながる可能性がある。静的解析や動的解析のような従来のソフトウェア脆弱性検出技術は、複数の脆弱性を検出できないことが示されている。本研究では、ソフトウェア脆弱性検出問題を解決するために、ディープラーニングアプローチ、特に畳み込みニューラルネットワーク(CNN)を用いた。
論文参考訳（メタデータ） (2025-12-14T08:24:06Z)
A Study on Mixup-Inspired Augmentation Methods for Software Vulnerability Detection [4.7525025776271725]
我々は、データの埋め込みを増強する5つの拡張手法を実装し、評価し、最近コード検索に利用した。このような拡張手法は有効であり、F1スコアを最大9.67%向上させることができるが、データセットのバランスをとるとランダムオーバーサンプリングに勝てない。
論文参考訳（メタデータ） (2025-04-22T06:47:39Z)
DFEPT: Data Flow Embedding for Enhancing Pre-Trained Model Based Vulnerability Detection [7.802093464108404]
本稿では,脆弱性検出タスクにおける事前学習モデルの性能向上を目的としたデータフロー埋め込み手法を提案する。具体的には,関数レベルのソースコードからデータフローグラフを解析し,DFGのノード特性として変数のデータ型を使用する。我々の研究は、DFEPTが事前訓練されたモデルに効果的な脆弱性セマンティック情報を提供し、Devignデータセットで64.97%、Revealデータセットで47.9%のF1スコアを達成できることを示している。
論文参考訳（メタデータ） (2024-10-24T07:05:07Z)
Revisiting the Performance of Deep Learning-Based Vulnerability Detection on Realistic Datasets [4.385369356819613]
本稿では,脆弱性検出モデルを評価するための実世界のシナリオを表すデータセットであるReal-Vulを紹介する。 DeepWukong、LineVul、ReVeal、IVDetectの評価では、パフォーマンスが大幅に低下し、精度は95パーセントまで低下し、F1スコアは91ポイントまで低下した。オーバーフィッティングは重要な問題として認識され、改善手法が提案され、パフォーマンスが最大30%向上する可能性がある。
論文参考訳（メタデータ） (2024-07-03T13:34:30Z)
Vulnerability Detection with Code Language Models: How Far Are We? [40.455600722638906]
PrimeVulは、脆弱性検出のためのコードLMのトレーニングと評価のための新しいデータセットである。これは、人間の検証されたベンチマークに匹敵するラベルの精度を達成する、新しいデータラベリング技術を含んでいる。また、厳密なデータ重複解消戦略と時系列データ分割戦略を実装して、データの漏洩問題を軽減している。
論文参考訳（メタデータ） (2024-03-27T14:34:29Z)
To Err is Machine: Vulnerability Detection Challenges LLM Reasoning [8.602355712876815]
脆弱性検出という,困難なコード推論タスクを提示する。最新のSOTA(State-of-the-art)モデルでは,脆弱性検出評価では54.5%のバランスド精度しか報告されていない。脆弱性検出を克服するためには、新しいモデル、新しいトレーニング方法、あるいはもっと実行固有の事前トレーニングデータが必要になるかもしれない。
論文参考訳（メタデータ） (2024-03-25T21:47:36Z)
CrossDF: Improving Cross-Domain Deepfake Detection with Deep Information Decomposition [53.860796916196634]
クロスデータセットディープフェイク検出(CrossDF)の性能を高めるためのディープ情報分解(DID)フレームワークを提案する。既存のディープフェイク検出方法とは異なり、我々のフレームワークは特定の視覚的アーティファクトよりも高いレベルのセマンティック特徴を優先する。顔の特徴をディープフェイク関連情報と無関係情報に適応的に分解し、本質的なディープフェイク関連情報のみを用いてリアルタイム・フェイク識別を行う。
論文参考訳（メタデータ） (2023-09-30T12:30:25Z)
Can An Old Fashioned Feature Extraction and A Light-weight Model Improve Vulnerability Type Identification Performance? [6.423483122892239]
脆弱性型識別(VTI)の問題点について検討する。我々は、大規模な脆弱性セットに基づいて、VTIのためのよく知られた、先進的な事前訓練モデルの性能を評価する。ベースラインアプローチの予測を洗練させるために,軽量な独立コンポーネントを導入する。
論文参考訳（メタデータ） (2023-06-26T14:28:51Z)
Black-box Dataset Ownership Verification via Backdoor Watermarking [67.69308278379957]
我々は、リリースデータセットの保護を、(目立たしい)サードパーティモデルのトレーニングに採用されているかどうかの検証として定式化する。バックドアの透かしを通じて外部パターンを埋め込んでオーナシップの検証を行い,保護することを提案する。具体的には、有毒なバックドア攻撃(例えばBadNets)をデータセットのウォーターマーキングに利用し、データセット検証のための仮説テストガイダンスメソッドを設計する。
論文参考訳（メタデータ） (2022-08-04T05:32:20Z)
Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文参考訳（メタデータ） (2022-03-25T19:57:19Z)
Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文参考訳（メタデータ） (2022-01-11T23:01:12Z)
VELVET: a noVel Ensemble Learning approach to automatically locate VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。 VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文参考訳（メタデータ） (2021-12-20T22:45:27Z)
Semantic Perturbations with Normalizing Flows for Improved Generalization [62.998818375912506]
我々は、非教師付きデータ拡張を定義するために、潜在空間における摂動が利用できることを示す。トレーニングを通して分類器に適応する潜伏性対向性摂動が最も効果的であることが判明した。
論文参考訳（メタデータ） (2021-08-18T03:20:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。