論文の概要: VGX: Large-Scale Sample Generation for Boosting Learning-Based Software
Vulnerability Analyses
- arxiv url: http://arxiv.org/abs/2310.15436v1
- Date: Tue, 24 Oct 2023 01:05:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 21:02:03.443473
- Title: VGX: Large-Scale Sample Generation for Boosting Learning-Based Software
Vulnerability Analyses
- Title(参考訳): VGX:学習ベースのソフトウェア脆弱性分析を促進する大規模サンプル生成
- Authors: Yu Nong, Richard Fang, Guangbei Yi, Kunsong Zhao, Xiapu Luo, Feng
Chen, and Haipeng Cai
- Abstract要約: 本稿では,高品質な脆弱性データセットを大規模に生成するための新しい手法であるVGXを提案する。
VGXは、そのような編集のパターンを使用して、特定コンテキストにおける脆弱性注入コード編集を実現する。
現場でのサンプル生産では、VGXは150,392個の脆弱なサンプルを生成し、ランダムに10%を選択して、これらのサンプルが脆弱性の検出、ローカライゼーション、修復にどの程度役立つかを評価しました。
- 参考スコア(独自算出の注目度): 30.65722096096949
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accompanying the successes of learning-based defensive software vulnerability
analyses is the lack of large and quality sets of labeled vulnerable program
samples, which impedes further advancement of those defenses. Existing
automated sample generation approaches have shown potentials yet still fall
short of practical expectations due to the high noise in the generated samples.
This paper proposes VGX, a new technique aimed for large-scale generation of
high-quality vulnerability datasets. Given a normal program, VGX identifies the
code contexts in which vulnerabilities can be injected, using a customized
Transformer featured with a new value-flowbased position encoding and
pre-trained against new objectives particularly for learning code structure and
context. Then, VGX materializes vulnerability-injection code editing in the
identified contexts using patterns of such edits obtained from both historical
fixes and human knowledge about real-world vulnerabilities. Compared to four
state-of-the-art (SOTA) baselines (pattern-, Transformer-, GNN-, and
pattern+Transformer-based), VGX achieved 99.09-890.06% higher F1 and
22.45%-328.47% higher label accuracy. For in-the-wild sample production, VGX
generated 150,392 vulnerable samples, from which we randomly chose 10% to
assess how much these samples help vulnerability detection, localization, and
repair. Our results show SOTA techniques for these three application tasks
achieved 19.15-330.80% higher F1, 12.86-19.31% higher top-10 accuracy, and
85.02-99.30% higher top-50 accuracy, respectively, by adding those samples to
their original training data. These samples also helped a SOTA vulnerability
detector discover 13 more real-world vulnerabilities (CVEs) in critical systems
(e.g., Linux kernel) that would be missed by the original model.
- Abstract(参考訳): 学習ベースの防御ソフトウェア脆弱性分析の成功を伴って、ラベル付き脆弱性プログラムサンプルの大規模かつ高品質なセットが欠如しており、これらの防御のさらなる進歩を妨げる。
既存の自動サンプル生成手法は、生成したサンプルの高ノイズのため、まだ現実的な期待に届かなかった。
本稿では,高品質な脆弱性データセットを大規模に生成するための新しい手法であるVGXを提案する。
通常のプログラムが与えられた場合、VGXは脆弱性を注入できるコードコンテキストを特定し、新しいバリューフローベースの位置エンコーディングを備えたカスタマイズされたトランスフォーマーを使用して、特にコード構造とコンテキストを学ぶための新しい目的に対して事前トレーニングを行う。
次に、VGXは、歴史的修正と現実世界の脆弱性に関する人間の知識の両方から得られた編集パターンを用いて、特定コンテキストにおける脆弱性注入コード編集を実現する。
4つのSOTAベースライン(パターン-、トランスフォーマー-、GNN-、パターン+トランスフォーマー-ベース)と比較して、VGXは99.09-890.06%高いF1と22.45%-328.47%高いラベル精度を達成した。
vgxは脆弱性のあるサンプルを150,392個生成し、そのサンプルから10パーセントをランダムに選択し、脆弱性の検出、ローカライズ、修復にどの程度役立つかを評価しました。
その結果、これらの3つのアプリケーションタスクのSOTA技術は、F1の19.15-330.80%、トップ10の精度が12.86-19.31%、トップ50の精度が85.02-99.30%向上した。
これらのサンプルはまた、SOTA脆弱性検出器が、オリジナルのモデルで見逃されるような重要なシステム(例えばLinuxカーネル)において、13のより現実的な脆弱性(CVE)を発見するのに役立った。
関連論文リスト
- CleanVul: Automatic Function-Level Vulnerability Detection in Code Commits Using LLM Heuristics [12.053158610054911]
本稿では,Large Language Model (LLM) を用いて,VFCからの脆弱性修正変更を自動的に識別する手法を提案する。
VulSifterは大規模な調査に適用され、GitHubで127,063のリポジトリをクロールし、5,352,105のコミットを取得しました。
LLM拡張手法を用いて11,632個の関数からなる高品質なデータセットであるCleanVulを開発した。
論文 参考訳(メタデータ) (2024-11-26T09:51:55Z) - Exploring RAG-based Vulnerability Augmentation with LLMs [19.45598962972431]
大規模言語モデル(LLM)は、様々なコード生成と理解タスクの解決に使用されている。
本研究では,LSM,すなわちミューテーション,インジェクション,拡張によって脆弱性を増大させる3つの戦略について検討する。
以上の結果から,本手法はベースライン設定 (NoAug, Vulgen, VGX) とランダムオーバーサンプリング (ROS) を30.80%, 27.48%, 27.93%, 15.41% で打ち負かした。
論文 参考訳(メタデータ) (2024-08-07T23:22:58Z) - Automated Software Vulnerability Static Code Analysis Using Generative Pre-Trained Transformer Models [0.8192907805418583]
生成事前学習トランスフォーマーモデルは、様々な自然言語処理タスクにおいて驚くほど効果的であることが示されている。
我々は,脆弱なコード構文の存在を自動的に識別するタスクにおいて,オープンソースのGPTモデルの有効性を評価する。
論文 参考訳(メタデータ) (2024-07-31T23:33:26Z) - Vulnerability Detection with Code Language Models: How Far Are We? [40.455600722638906]
PrimeVulは、脆弱性検出のためのコードLMのトレーニングと評価のための新しいデータセットである。
これは、人間の検証されたベンチマークに匹敵するラベルの精度を達成する、新しいデータラベリング技術を含んでいる。
また、厳密なデータ重複解消戦略と時系列データ分割戦略を実装して、データの漏洩問題を軽減している。
論文 参考訳(メタデータ) (2024-03-27T14:34:29Z) - FaultGuard: A Generative Approach to Resilient Fault Prediction in Smart Electrical Grids [53.2306792009435]
FaultGuardは、障害タイプとゾーン分類のための最初のフレームワークであり、敵攻撃に耐性がある。
本稿では,ロバスト性を高めるために,低複雑性故障予測モデルとオンライン逆行訓練手法を提案する。
本モデルでは,耐故障予測ベンチマークの最先端を最大0.958の精度で上回っている。
論文 参考訳(メタデータ) (2024-03-26T08:51:23Z) - Text generation for dataset augmentation in security classification
tasks [55.70844429868403]
本研究では、複数のセキュリティ関連テキスト分類タスクにおいて、このデータギャップを埋めるための自然言語テキストジェネレータの適用性を評価する。
我々は,GPT-3データ拡張戦略において,既知の正のクラスサンプルに厳しい制約がある状況において,大きなメリットを見出した。
論文 参考訳(メタデータ) (2023-10-22T22:25:14Z) - An Unbiased Transformer Source Code Learning with Semantic Vulnerability
Graph [3.3598755777055374]
現在の脆弱性スクリーニング技術は、新しい脆弱性を特定したり、開発者がコード脆弱性と分類を提供するのに効果がない。
これらの問題に対処するために,変換器 "RoBERTa" とグラフ畳み込みニューラルネットワーク (GCN) を組み合わせたマルチタスク・アンバイアス脆弱性分類器を提案する。
本稿では、逐次フロー、制御フロー、データフローからエッジを統合することで生成されたソースコードからのセマンティック脆弱性グラフ(SVG)表現と、Poacher Flow(PF)と呼ばれる新しいフローを利用したトレーニングプロセスを提案する。
論文 参考訳(メタデータ) (2023-04-17T20:54:14Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - CC-Cert: A Probabilistic Approach to Certify General Robustness of
Neural Networks [58.29502185344086]
安全クリティカルな機械学習アプリケーションでは、モデルを敵の攻撃から守ることが不可欠である。
意味的に意味のある入力変換に対して、ディープラーニングモデルの証明可能な保証を提供することが重要である。
我々はChernoff-Cramer境界に基づく新しい普遍確率的証明手法を提案する。
論文 参考訳(メタデータ) (2021-09-22T12:46:04Z) - Semantic Perturbations with Normalizing Flows for Improved
Generalization [62.998818375912506]
我々は、非教師付きデータ拡張を定義するために、潜在空間における摂動が利用できることを示す。
トレーニングを通して分類器に適応する潜伏性対向性摂動が最も効果的であることが判明した。
論文 参考訳(メタデータ) (2021-08-18T03:20:00Z) - How Robust are Randomized Smoothing based Defenses to Data Poisoning? [66.80663779176979]
我々は、トレーニングデータの品質の重要性を強調する堅牢な機械学習モデルに対して、これまで認識されていなかった脅威を提示します。
本稿では,二段階最適化に基づく新たなデータ中毒攻撃法を提案し,ロバストな分類器のロバスト性を保証する。
我々の攻撃は、被害者が最先端のロバストな訓練方法を用いて、ゼロからモデルを訓練しても効果的である。
論文 参考訳(メタデータ) (2020-12-02T15:30:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。