Fugu-MT 論文翻訳(概要): Revisiting the Performance of Deep Learning-Based Vulnerability Detection on Realistic Datasets

論文の概要: Revisiting the Performance of Deep Learning-Based Vulnerability Detection on Realistic Datasets

arxiv url: http://arxiv.org/abs/2407.03093v1
Date: Wed, 3 Jul 2024 13:34:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-04 14:16:16.207155
Title: Revisiting the Performance of Deep Learning-Based Vulnerability Detection on Realistic Datasets
Title（参考訳）: 実データを用いた深層学習による脆弱性検出性能の再検討
Authors: Partha Chakraborty, Krishna Kanth Arumugam, Mahmoud Alfadel, Meiyappan Nagappan, Shane McIntosh,
Abstract要約: 本稿では,脆弱性検出モデルを評価するための実世界のシナリオを表すデータセットであるReal-Vulを紹介する。 DeepWukong、LineVul、ReVeal、IVDetectの評価では、パフォーマンスが大幅に低下し、精度は95パーセントまで低下し、F1スコアは91ポイントまで低下した。オーバーフィッティングは重要な問題として認識され、改善手法が提案され、パフォーマンスが最大30%向上する可能性がある。
参考スコア（独自算出の注目度）: 4.385369356819613
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The impact of software vulnerabilities on everyday software systems is significant. Despite deep learning models being proposed for vulnerability detection, their reliability is questionable. Prior evaluations show high recall/F1 scores of up to 99%, but these models underperform in practical scenarios, particularly when assessed on entire codebases rather than just the fixing commit. This paper introduces Real-Vul, a comprehensive dataset representing real-world scenarios for evaluating vulnerability detection models. Evaluating DeepWukong, LineVul, ReVeal, and IVDetect shows a significant drop in performance, with precision decreasing by up to 95 percentage points and F1 scores by up to 91 points. Furthermore, Model performance fluctuates based on vulnerability characteristics, with better F1 scores for information leaks or code injection than for path resolution or predictable return values. The results highlight a significant performance gap that needs addressing before deploying deep learning-based vulnerability detection in practical settings. Overfitting is identified as a key issue, and an augmentation technique is proposed, potentially improving performance by up to 30%. Contributions include a dataset creation approach for better model evaluation, Real-Vul dataset, and empirical evidence of deep learning models struggling in real-world settings.
Abstract（参考訳）: ソフトウェア脆弱性が日々のソフトウェアシステムに与える影響は大きい。脆弱性検出のためにディープラーニングモデルが提案されているが、信頼性には疑問がある。以前の評価では、リコール/F1スコアは最大99%だった。本稿では,脆弱性検出モデルを評価するために,実世界のシナリオを表す包括的データセットであるReal-Vulを紹介する。 DeepWukong、LineVul、ReVeal、IVDetectの評価では、パフォーマンスが大幅に低下し、精度は95パーセントまで低下し、F1スコアは91ポイントまで低下した。さらに、モデルパフォーマンスは脆弱性特性に基づいて変動し、パスの解像度や予測可能な戻り値よりも、情報リークやコードインジェクションのF1スコアが優れている。その結果は、ディープラーニングベースの脆弱性検出を実践的な設定でデプロイする前に対処する必要がある、大幅なパフォーマンスギャップを浮き彫りにしている。オーバーフィッティングは重要な問題として認識され、改善手法が提案され、パフォーマンスが最大30%向上する可能性がある。コントリビューションには、より良いモデル評価のためのデータセット生成アプローチ、Real-Vulデータセット、現実世界の設定で苦労しているディープラーニングモデルの実証的な証拠などがある。

関連論文リスト

Out of Distribution, Out of Luck: How Well Can LLMs Trained on Vulnerability Datasets Detect Top 25 CWE Weaknesses? [15.433632243968137]
我々は、手動でキュレートされたテストデータセットであるBenchVulを導入し、MITRE Top 25 Most Dangerous CWEをカバーした。第2に、7つの公開ソースを集約することで35,045の関数からなる高品質なトレーニングデータセットTitanVulを構築した。第3に,シミュレートされた開発を通じてコンテキスト認識型脆弱性事例を合成するリアリスティック・脆弱性生成(RVG)フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-29T13:51:46Z)
It Only Gets Worse: Revisiting DL-Based Vulnerability Detectors from a Practical Perspective [14.271145160443462]
VulTegraは、脆弱性検出のためのスクラッチトレーニングされたDLモデルと事前トレーニングされたDLモデルを比較する。最先端のSOTA(State-of-the-art)検出器は、依然として低い一貫性、限られた現実世界能力、スケーラビリティの課題に悩まされている。
論文参考訳（メタデータ） (2025-07-13T08:02:56Z)
SecVulEval: Benchmarking LLMs for Real-World C/C++ Vulnerability Detection [8.440793630384546]
大規模言語モデル(LLM)は、ソフトウェア工学のタスクにおいて有望であることを示している。高品質なデータセットがないため、脆弱性検出の有効性を評価するのは難しい。このベンチマークには、1999年から2024年までのC/C++プロジェクトで5,867のCVEをカバーする25,440の関数サンプルが含まれている。
論文参考訳（メタデータ） (2025-05-26T11:06:03Z)
CleanVul: Automatic Function-Level Vulnerability Detection in Code Commits Using LLM Heuristics [12.053158610054911]
本稿では,Large Language Model (LLM) を用いて,VFCからの脆弱性修正変更を自動的に識別する手法を提案する。 VulSifterは大規模な調査に適用され、GitHubで127,063のリポジトリをクロールし、5,352,105のコミットを取得しました。 LLM拡張手法を用いて11,632個の関数からなる高品質なデータセットであるCleanVulを開発した。
論文参考訳（メタデータ） (2024-11-26T09:51:55Z)
DFEPT: Data Flow Embedding for Enhancing Pre-Trained Model Based Vulnerability Detection [7.802093464108404]
本稿では,脆弱性検出タスクにおける事前学習モデルの性能向上を目的としたデータフロー埋め込み手法を提案する。具体的には,関数レベルのソースコードからデータフローグラフを解析し,DFGのノード特性として変数のデータ型を使用する。我々の研究は、DFEPTが事前訓練されたモデルに効果的な脆弱性セマンティック情報を提供し、Devignデータセットで64.97%、Revealデータセットで47.9%のF1スコアを達成できることを示している。
論文参考訳（メタデータ） (2024-10-24T07:05:07Z)
Early-Stage Anomaly Detection: A Study of Model Performance on Complete vs. Partial Flows [0.0]
本研究では,異常検出システムにおける機械学習モデル,特にランダムフォレストの有効性について検討した。実世界のリアルタイムネットワーク環境に典型的な不完全なデータにモデルを適用する際に生じる性能格差について検討する。
論文参考訳（メタデータ） (2024-07-03T07:14:25Z)
Vulnerability Detection with Code Language Models: How Far Are We? [40.455600722638906]
PrimeVulは、脆弱性検出のためのコードLMのトレーニングと評価のための新しいデータセットである。これは、人間の検証されたベンチマークに匹敵するラベルの精度を達成する、新しいデータラベリング技術を含んでいる。また、厳密なデータ重複解消戦略と時系列データ分割戦略を実装して、データの漏洩問題を軽減している。
論文参考訳（メタデータ） (2024-03-27T14:34:29Z)
Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文参考訳（メタデータ） (2023-11-29T05:33:28Z)
Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文参考訳（メタデータ） (2023-05-23T12:05:09Z)
Dataflow Analysis-Inspired Deep Learning for Efficient Vulnerability Detection [17.761541379830373]
DeepDFAは、データフロー分析にインスパイアされたグラフ学習フレームワークである。最高性能のベースラインモデルより75倍速く、9分で訓練された。平均して17の脆弱性のうち8.7が検出され、パッチとバグの多いバージョンを区別することができた。
論文参考訳（メタデータ） (2022-12-15T19:49:27Z)
VELVET: a noVel Ensemble Learning approach to automatically locate VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。 VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文参考訳（メタデータ） (2021-12-20T22:45:27Z)
Accurate and Robust Feature Importance Estimation under Distribution Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2020-09-30T05:29:01Z)
Influence Functions in Deep Learning Are Fragile [52.31375893260445]
影響関数は、テスト時間予測におけるサンプルの効果を近似する。影響評価は浅いネットワークではかなり正確ですヘッセン正則化は、高品質な影響推定を得るために重要である。
論文参考訳（メタデータ） (2020-06-25T18:25:59Z)
Provably Efficient Causal Reinforcement Learning with Confounded Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-22T14:49:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。