論文の概要: Vulnerability Detection with Code Language Models: How Far Are We?
- arxiv url: http://arxiv.org/abs/2403.18624v1
- Date: Wed, 27 Mar 2024 14:34:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 16:38:49.134562
- Title: Vulnerability Detection with Code Language Models: How Far Are We?
- Title(参考訳): コード言語モデルによる脆弱性検出: どれくらい遠いか?
- Authors: Yangruibo Ding, Yanjun Fu, Omniyyah Ibrahim, Chawin Sitawarin, Xinyun Chen, Basel Alomair, David Wagner, Baishakhi Ray, Yizheng Chen,
- Abstract要約: PrimeVulは、脆弱性検出のためのコードLMのトレーニングと評価のための新しいデータセットである。
これは、人間の検証されたベンチマークに匹敵するラベルの精度を達成する、新しいデータラベリング技術を含んでいる。
また、厳密なデータ重複解消戦略と時系列データ分割戦略を実装して、データの漏洩問題を軽減している。
- 参考スコア(独自算出の注目度): 40.455600722638906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the context of the rising interest in code language models (code LMs) and vulnerability detection, we study the effectiveness of code LMs for detecting vulnerabilities. Our analysis reveals significant shortcomings in existing vulnerability datasets, including poor data quality, low label accuracy, and high duplication rates, leading to unreliable model performance in realistic vulnerability detection scenarios. Additionally, the evaluation methods used with these datasets are not representative of real-world vulnerability detection. To address these challenges, we introduce PrimeVul, a new dataset for training and evaluating code LMs for vulnerability detection. PrimeVul incorporates a novel set of data labeling techniques that achieve comparable label accuracy to human-verified benchmarks while significantly expanding the dataset. It also implements a rigorous data de-duplication and chronological data splitting strategy to mitigate data leakage issues, alongside introducing more realistic evaluation metrics and settings. This comprehensive approach aims to provide a more accurate assessment of code LMs' performance in real-world conditions. Evaluating code LMs on PrimeVul reveals that existing benchmarks significantly overestimate the performance of these models. For instance, a state-of-the-art 7B model scored 68.26% F1 on BigVul but only 3.09% F1 on PrimeVul. Attempts to improve performance through advanced training techniques and larger models like GPT-3.5 and GPT-4 were unsuccessful, with results akin to random guessing in the most stringent settings. These findings underscore the considerable gap between current capabilities and the practical requirements for deploying code LMs in security roles, highlighting the need for more innovative research in this domain.
- Abstract(参考訳): コード言語モデル(コードLM)と脆弱性検出に対する関心が高まっている状況において、脆弱性検出のためのコードLMの有効性について検討する。
我々の分析では、データ品質の低さ、ラベルの精度の低さ、重複率の高さなど、既存の脆弱性データセットの重大な欠陥が明らかとなり、現実的な脆弱性検出シナリオにおける信頼性の低いモデルパフォーマンスにつながります。
さらに、これらのデータセットで使用される評価方法は、現実世界の脆弱性検出を代表していない。
これらの課題に対処するために、脆弱性検出のためのコードLMのトレーニングと評価のための新しいデータセットであるPrimeVulを紹介します。
PrimeVulは、データセットを大幅に拡張しながら、人間検証されたベンチマークに匹敵するラベル精度を実現する、新しいデータラベリングテクニックを取り入れている。
また、厳密なデータ重複解消戦略と時系列データ分割戦略を実装し、データ漏洩の問題を軽減するとともに、より現実的な評価指標と設定を導入する。
この包括的なアプローチは、実環境におけるLMのパフォーマンスをより正確に評価することを目的としている。
PrimeVul上でのコードLMの評価は、既存のベンチマークがこれらのモデルの性能を大幅に過大評価していることを示している。
例えば、最先端の7Bモデルは、BigVulでは68.26%のF1を記録したが、PrimeVulでは3.09%のF1しか獲得できなかった。
高度なトレーニング技術と GPT-3.5 や GPT-4 のような大型モデルによる性能向上の試みは失敗に終わり、その結果は最も厳密な環境でのランダムな推測に似ていた。
これらの調査結果は、現在の機能とセキュリティロールにコードLMをデプロイする実践的要件との間にかなりのギャップがあることを浮き彫りにし、この領域におけるより革新的な研究の必要性を強調している。
関連論文リスト
- Enhancing Code Vulnerability Detection via Vulnerability-Preserving Data Augmentation [29.72520866016839]
ソースコードの脆弱性検出は、潜在的な攻撃からソフトウェアシステムを保護するための固有の脆弱性を特定することを目的としている。
多くの先行研究は、様々な脆弱性の特徴を見落とし、問題をバイナリ(0-1)分類タスクに単純化した。
FGVulDetは、さまざまな脆弱性タイプの特徴を識別するために複数の分類器を使用し、その出力を組み合わせて特定の脆弱性タイプを特定する。
FGVulDetはGitHubの大規模なデータセットでトレーニングされており、5種類の脆弱性を含んでいる。
論文 参考訳(メタデータ) (2024-04-15T09:10:52Z) - Have Seen Me Before? Automating Dataset Updates Towards Reliable and
Timely Evaluation [59.91488389687633]
大きな言語モデル(LLM)は、ますます深刻な評価課題に直面しています。
本稿では,信頼性とタイムリーな評価のために,データセットの更新を自動化することを提案する。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z) - VGX: Large-Scale Sample Generation for Boosting Learning-Based Software
Vulnerability Analyses [30.65722096096949]
本稿では,高品質な脆弱性データセットを大規模に生成するための新しい手法であるVGXを提案する。
VGXは、そのような編集のパターンを使用して、特定コンテキストにおける脆弱性注入コード編集を実現する。
現場でのサンプル生産では、VGXは150,392個の脆弱なサンプルを生成し、ランダムに10%を選択して、これらのサンプルが脆弱性の検出、ローカライゼーション、修復にどの程度役立つかを評価しました。
論文 参考訳(メタデータ) (2023-10-24T01:05:00Z) - A Discrepancy Aware Framework for Robust Anomaly Detection [51.710249807397695]
本稿では,DAF(Disdisrepancy Aware Framework)を提案する。
本手法は,デコーダの欠陥同定に外見に依存しないキューを利用して,その合成外観への依存を緩和する。
単純な合成戦略の下では,既存の手法を大きなマージンで上回り,また,最先端のローカライゼーション性能も達成している。
論文 参考訳(メタデータ) (2023-10-11T15:21:40Z) - DeepfakeBench: A Comprehensive Benchmark of Deepfake Detection [55.70982767084996]
ディープフェイク検出の分野で見落とされがちな課題は、標準化され、統一され、包括的なベンチマークがないことである。
DeepfakeBenchと呼ばれる,3つの重要なコントリビューションを提供するディープフェイク検出のための,最初の包括的なベンチマークを提示する。
DeepfakeBenchには15の最先端検出方法、9CLデータセット、一連のDeepfake検出評価プロトコルと分析ツール、包括的な評価ツールが含まれている。
論文 参考訳(メタデータ) (2023-07-04T01:34:41Z) - OutCenTR: A novel semi-supervised framework for predicting exploits of
vulnerabilities in high-dimensional datasets [0.0]
私たちは、悪用される可能性のある脆弱性を予測するために、外れ値検出技術を使用しています。
本稿では,ベースライン外乱検出モデルを強化する次元削減手法であるOutCenTRを提案する。
実験の結果,F1スコアの5倍の精度向上が得られた。
論文 参考訳(メタデータ) (2023-04-03T00:34:41Z) - Dataflow Analysis-Inspired Deep Learning for Efficient Vulnerability
Detection [17.761541379830373]
DeepDFAは、データフロー分析にインスパイアされたグラフ学習フレームワークである。
最高性能のベースラインモデルより75倍速く、9分で訓練された。
平均して17の脆弱性のうち8.7が検出され、パッチとバグの多いバージョンを区別することができた。
論文 参考訳(メタデータ) (2022-12-15T19:49:27Z) - Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。
シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T19:57:19Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。