論文の概要: From Lab to Reality: A Practical Evaluation of Deep Learning Models and LLMs for Vulnerability Detection
- arxiv url: http://arxiv.org/abs/2512.10485v1
- Date: Thu, 11 Dec 2025 10:04:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.312199
- Title: From Lab to Reality: A Practical Evaluation of Deep Learning Models and LLMs for Vulnerability Detection
- Title(参考訳): ラボから現実へ: 脆弱性検出のためのディープラーニングモデルとLLMの実践的評価
- Authors: Chaomeng Lu, Bert Lagaisse,
- Abstract要約: ディープ・ラーニング(DL)に基づく脆弱性検出手法は,ベンチマーク・データセットにおいて高い性能を示したが,実際の有効性は未解明のままである。
最近の研究は、グラフニューラルネットワーク(GNN)ベースのモデルと、大言語モデル(LLM)を含むトランスフォーマーベースのモデルの両方が、キュレートされたベンチマークデータセットで評価すると有望な結果が得られることを示唆している。
本研究では,2つの代表的なDLモデルであるReVealとLineVulの4つの代表的なデータセットを体系的に評価する。
- 参考スコア(独自算出の注目度): 2.8647133890967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vulnerability detection methods based on deep learning (DL) have shown strong performance on benchmark datasets, yet their real-world effectiveness remains underexplored. Recent work suggests that both graph neural network (GNN)-based and transformer-based models, including large language models (LLMs), yield promising results when evaluated on curated benchmark datasets. These datasets are typically characterized by consistent data distributions and heuristic or partially noisy labels. In this study, we systematically evaluate two representative DL models-ReVeal and LineVul-across four representative datasets: Juliet, Devign, BigVul, and ICVul. Each model is trained independently on each respective dataset, and their code representations are analyzed using t-SNE to uncover vulnerability related patterns. To assess realistic applicability, we deploy these models along with four pretrained LLMs, Claude 3.5 Sonnet, GPT-o3-mini, GPT-4o, and GPT-5 on a curated dataset, VentiVul, comprising 20 recently (May 2025) fixed vulnerabilities from the Linux kernel. Our experiments reveal that current models struggle to distinguish vulnerable from non-vulnerable code in representation space and generalize poorly across datasets with differing distributions. When evaluated on VentiVul, our newly constructed time-wise out-of-distribution dataset, performance drops sharply, with most models failing to detect vulnerabilities reliably. These results expose a persistent gap between academic benchmarks and real-world deployment, emphasizing the value of our deployment-oriented evaluation framework and the need for more robust code representations and higher-quality datasets.
- Abstract(参考訳): ディープ・ラーニング(DL)に基づく脆弱性検出手法は,ベンチマーク・データセットにおいて高い性能を示したが,実際の有効性は未解明のままである。
最近の研究は、グラフニューラルネットワーク(GNN)ベースのモデルと、大きな言語モデル(LLM)を含むトランスフォーマーベースのモデルの両方が、キュレートされたベンチマークデータセットで評価すると有望な結果が得られることを示唆している。
これらのデータセットは典型的には一貫性のあるデータ分布とヒューリスティックまたは部分的にノイズのあるラベルによって特徴づけられる。
本研究では、Juliet, Devign, BigVul, ICVulの4つの代表的なDLモデルであるReVealとLineVulを体系的に評価した。
各モデルは各データセットで独立してトレーニングされ、コード表現はt-SNEを使用して分析され、脆弱性に関連するパターンを明らかにする。
現実的な適用性を評価するため,これらのモデルを,Claude 3.5 Sonnet, GPT-o3-mini, GPT-4o, GPT-5という4つの事前訓練済みLLMとともに,Linuxカーネルから最近20(2025年5月)に修正された脆弱性を含むキュレートデータセットであるVentiVul上にデプロイする。
実験の結果、現在のモデルでは、表現空間における脆弱なコードと非脆弱性なコードとを区別し、異なる分布を持つデータセット間での一般化に苦慮していることが明らかとなった。
新たに構築したタイム・オブ・ディストリビューションデータセットであるVentiVulを評価すると、パフォーマンスが急激に低下し、ほとんどのモデルが脆弱性を確実に検出できなかった。
これらの結果は,私たちのデプロイメント指向評価フレームワークの価値と,より堅牢なコード表現と高品質なデータセットの必要性を強調しながら,学術的なベンチマークと実世界のデプロイメントとの間に永続的なギャップを顕在化しています。
関連論文リスト
- Out of Distribution, Out of Luck: How Well Can LLMs Trained on Vulnerability Datasets Detect Top 25 CWE Weaknesses? [15.433632243968137]
自動脆弱性検出研究のための3部構成のソリューションを提案する。
まず、手動でキュレートされたテストデータセットであるBenchVulを紹介します。
第2に,38,863個の関数からなる高品質なトレーニングデータセットTitanVulを構築した。
第3に,コンテキスト認識型脆弱性事例を合成するリアリスティック脆弱性生成(RVG)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-29T13:51:46Z) - Towards Robust Universal Information Extraction: Benchmark, Evaluation, and Solution [66.11004226578771]
既存の堅牢なベンチマークデータセットには2つの重要な制限がある。
単一の情報抽出(IE)タスクに対して、限られた範囲の摂動しか生成しない。
LLM(Large Language Models)の強力な生成機能を考慮すると、ruIE-Benchと呼ばれるRobust UIEのための新しいベンチマークデータセットを導入する。
データのうち、 textbf15% しかトレーニングしない場合、3つの IE タスクに対して、平均 textbf7.5% の相対的なパフォーマンス改善につながることを示す。
論文 参考訳(メタデータ) (2025-03-05T05:39:29Z) - Vulnerability Detection with Code Language Models: How Far Are We? [40.455600722638906]
PrimeVulは、脆弱性検出のためのコードLMのトレーニングと評価のための新しいデータセットである。
これは、人間の検証されたベンチマークに匹敵するラベルの精度を達成する、新しいデータラベリング技術を含んでいる。
また、厳密なデータ重複解消戦略と時系列データ分割戦略を実装して、データの漏洩問題を軽減している。
論文 参考訳(メタデータ) (2024-03-27T14:34:29Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Energy-based Out-of-Distribution Detection for Graph Neural Networks [76.0242218180483]
我々は,GNNSafeと呼ばれるグラフ上での学習のための,シンプルで強力で効率的なOOD検出モデルを提案する。
GNNSafeは、最先端技術に対するAUROCの改善を最大17.0%で達成しており、そのような未開発領域では単純だが強力なベースラインとして機能する可能性がある。
論文 参考訳(メタデータ) (2023-02-06T16:38:43Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。