論文の概要: It Only Gets Worse: Revisiting DL-Based Vulnerability Detectors from a Practical Perspective
- arxiv url: http://arxiv.org/abs/2507.09529v1
- Date: Sun, 13 Jul 2025 08:02:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:23.457583
- Title: It Only Gets Worse: Revisiting DL-Based Vulnerability Detectors from a Practical Perspective
- Title(参考訳): DLベースの脆弱性検知器を実際的視点から再検討する
- Authors: Yunqian Wang, Xiaohong Li, Yao Zhang, Yuekang Li, Zhiping Zhou, Ruitao Feng,
- Abstract要約: VulTegraは、脆弱性検出のためのスクラッチトレーニングされたDLモデルと事前トレーニングされたDLモデルを比較する。
最先端のSOTA(State-of-the-art)検出器は、依然として低い一貫性、限られた現実世界能力、スケーラビリティの課題に悩まされている。
- 参考スコア(独自算出の注目度): 14.271145160443462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the growing threat of software vulnerabilities, deep learning (DL)-based detectors have gained popularity for vulnerability detection. However, doubts remain regarding their consistency within declared CWE ranges, real-world effectiveness, and applicability across scenarios. These issues may lead to unreliable detection, high false positives/negatives, and poor adaptability to emerging vulnerabilities. A comprehensive analysis is needed to uncover critical factors affecting detection and guide improvements in model design and deployment. In this paper, we present VulTegra, a novel evaluation framework that conducts a multidimensional comparison of scratch-trained and pre-trained-based DL models for vulnerability detection. VulTegra reveals that state-of-the-art (SOTA) detectors still suffer from low consistency, limited real-world capabilities, and scalability challenges. Contrary to common belief, pre-trained models are not consistently better than scratch-trained models but exhibit distinct strengths in specific contexts.Importantly, our study exposes the limitations of relying solely on CWE-based classification and identifies key factors that significantly affect model performance. Experimental results show that adjusting just one such factor consistently improves recall across all seven evaluated detectors, with six also achieving better F1 scores. Our findings provide deeper insights into model behavior and emphasize the need to consider both vulnerability types and inherent code features for effective detection.
- Abstract(参考訳): ソフトウェア脆弱性の脅威が高まっているため、ディープラーニング(DL)ベースの検出器は脆弱性検出で人気を集めている。
しかし、宣言されたCWEの範囲内での一貫性、実際の有効性、シナリオ間の適用性については疑問が残る。
これらの問題は、信頼性の低い検出、偽陽性/陰性、新興脆弱性への適応性の低下につながる可能性がある。
モデル設計とデプロイメントにおける検出とガイドの改善に影響を及ぼす重要な要因を明らかにするためには、包括的な分析が必要である。
本稿では,脆弱性検出のためのスクラッチトレーニングとプレトレーニングベースDLモデルの多次元比較を行う新しい評価フレームワークであるVulTegraを提案する。
VulTegraは、最先端のSOTA(State-of-the-art)検出器が依然として低い一貫性、限られた実世界の機能、スケーラビリティの課題に悩まされていることを明らかにした。
一般的な信念とは対照的に、事前学習モデルは、スクラッチトレーニングモデルよりも一貫して優れているわけではないが、特定の文脈において異なる強みを示す。
実験の結果、これらの因子を1つだけ調整することで、7つの評価された検出器のリコールが一貫して改善され、6つのF1スコアも改善された。
我々の発見はモデル行動に関する深い洞察を与え、効果的な検出のために脆弱性タイプと固有のコード機能の両方を考慮する必要性を強調します。
関連論文リスト
- Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。
本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。
特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-03-21T06:12:06Z) - One-for-All Does Not Work! Enhancing Vulnerability Detection by Mixture-of-Experts (MoE) [11.69736955814315]
MoEVDは脆弱性検出をCWEタイプ分類とCWE固有の脆弱性検出という2つのタスクに分解する。
タスクを分割することで、脆弱性検出において、MoEVDは特定の専門家が1つのモデル内ですべての脆弱性を扱う代わりに、異なるタイプの脆弱性を扱うことができる。
MoEVDはほとんど全てのCWEタイプを抜いて、最高のSOTAベースラインのリコールを9%から77.8%改善している。
論文 参考訳(メタデータ) (2025-01-27T19:25:34Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Revisiting the Performance of Deep Learning-Based Vulnerability Detection on Realistic Datasets [4.385369356819613]
本稿では,脆弱性検出モデルを評価するための実世界のシナリオを表すデータセットであるReal-Vulを紹介する。
DeepWukong、LineVul、ReVeal、IVDetectの評価では、パフォーマンスが大幅に低下し、精度は95パーセントまで低下し、F1スコアは91ポイントまで低下した。
オーバーフィッティングは重要な問題として認識され、改善手法が提案され、パフォーマンスが最大30%向上する可能性がある。
論文 参考訳(メタデータ) (2024-07-03T13:34:30Z) - Vulnerability Detection with Code Language Models: How Far Are We? [40.455600722638906]
PrimeVulは、脆弱性検出のためのコードLMのトレーニングと評価のための新しいデータセットである。
これは、人間の検証されたベンチマークに匹敵するラベルの精度を達成する、新しいデータラベリング技術を含んでいる。
また、厳密なデータ重複解消戦略と時系列データ分割戦略を実装して、データの漏洩問題を軽減している。
論文 参考訳(メタデータ) (2024-03-27T14:34:29Z) - Benchmarking Zero-Shot Robustness of Multimodal Foundation Models: A Pilot Study [61.65123150513683]
CLIPのようなマルチモーダル基盤モデルは、最先端のゼロショット結果を生成する。
これらのモデルは、ImageNetでトレーニングされた教師付きモデルのパフォーマンスを一致させることで、ロバスト性ギャップを埋めることが報告されている。
CLIPは、ベンチマーク上の教師付きImageNetモデルと比較して、かなりの堅牢性低下をもたらすことを示す。
論文 参考訳(メタデータ) (2024-03-15T17:33:49Z) - Can An Old Fashioned Feature Extraction and A Light-weight Model Improve
Vulnerability Type Identification Performance? [6.423483122892239]
脆弱性型識別(VTI)の問題点について検討する。
我々は、大規模な脆弱性セットに基づいて、VTIのためのよく知られた、先進的な事前訓練モデルの性能を評価する。
ベースラインアプローチの予測を洗練させるために,軽量な独立コンポーネントを導入する。
論文 参考訳(メタデータ) (2023-06-26T14:28:51Z) - Learning to Quantize Vulnerability Patterns and Match to Locate
Statement-Level Vulnerabilities [19.6975205650411]
さまざまな脆弱性パターンを表す量子化されたベクトルで構成される脆弱性コードブックが学習される。
推論の間、コードブックは、すべての学習パターンにマッチし、潜在的な脆弱性の存在を予測するために反復される。
提案手法は188,000以上のC/C++関数からなる実世界のデータセットに対して広範に評価された。
論文 参考訳(メタデータ) (2023-05-26T04:13:31Z) - Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。
シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T19:57:19Z) - Clustering Effect of (Linearized) Adversarial Robust Models [60.25668525218051]
本稿では, 敵の強靭性に対する新たな理解を提案し, ドメイン適応や頑健性向上といったタスクに適用する。
提案したクラスタリング戦略の合理性と優越性を実験的に評価した。
論文 参考訳(メタデータ) (2021-11-25T05:51:03Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。