論文の概要: Enhancing Code Vulnerability Detection via Vulnerability-Preserving Data Augmentation
- arxiv url: http://arxiv.org/abs/2404.09599v1
- Date: Mon, 15 Apr 2024 09:10:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 13:38:59.027017
- Title: Enhancing Code Vulnerability Detection via Vulnerability-Preserving Data Augmentation
- Title(参考訳): 脆弱性保存データ拡張によるコード脆弱性検出の強化
- Authors: Shangqing Liu, Wei Ma, Jian Wang, Xiaofei Xie, Ruitao Feng, Yang Liu,
- Abstract要約: ソースコードの脆弱性検出は、潜在的な攻撃からソフトウェアシステムを保護するための固有の脆弱性を特定することを目的としている。
多くの先行研究は、様々な脆弱性の特徴を見落とし、問題をバイナリ(0-1)分類タスクに単純化した。
FGVulDetは、さまざまな脆弱性タイプの特徴を識別するために複数の分類器を使用し、その出力を組み合わせて特定の脆弱性タイプを特定する。
FGVulDetはGitHubの大規模なデータセットでトレーニングされており、5種類の脆弱性を含んでいる。
- 参考スコア(独自算出の注目度): 29.72520866016839
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Source code vulnerability detection aims to identify inherent vulnerabilities to safeguard software systems from potential attacks. Many prior studies overlook diverse vulnerability characteristics, simplifying the problem into a binary (0-1) classification task for example determining whether it is vulnerable or not. This poses a challenge for a single deep learning-based model to effectively learn the wide array of vulnerability characteristics. Furthermore, due to the challenges associated with collecting large-scale vulnerability data, these detectors often overfit limited training datasets, resulting in lower model generalization performance. To address the aforementioned challenges, in this work, we introduce a fine-grained vulnerability detector namely FGVulDet. Unlike previous approaches, FGVulDet employs multiple classifiers to discern characteristics of various vulnerability types and combines their outputs to identify the specific type of vulnerability. Each classifier is designed to learn type-specific vulnerability semantics. Additionally, to address the scarcity of data for some vulnerability types and enhance data diversity for learning better vulnerability semantics, we propose a novel vulnerability-preserving data augmentation technique to augment the number of vulnerabilities. Taking inspiration from recent advancements in graph neural networks for learning program semantics, we incorporate a Gated Graph Neural Network (GGNN) and extend it to an edge-aware GGNN to capture edge-type information. FGVulDet is trained on a large-scale dataset from GitHub, encompassing five different types of vulnerabilities. Extensive experiments compared with static-analysis-based approaches and learning-based approaches have demonstrated the effectiveness of FGVulDet.
- Abstract(参考訳): ソースコードの脆弱性検出は、潜在的な攻撃からソフトウェアシステムを保護するための固有の脆弱性を特定することを目的としている。
多くの先行研究は、様々な脆弱性の特徴を見落としており、例えば脆弱性があるかどうかを決定するために、問題をバイナリ(0-1)分類タスクに単純化している。
これは、単一のディープラーニングベースのモデルが、幅広い脆弱性特性を効果的に学習する上で、課題となる。
さらに、大規模な脆弱性データ収集に関わる課題のため、これらの検出器は限られたトレーニングデータセットに過度に適合することが多く、結果としてモデルの一般化性能が低下する。
上記の課題に対処するため、本研究では、FGVulDetと呼ばれるきめ細かい脆弱性検出装置を導入する。
以前のアプローチとは異なり、FGVulDetはさまざまな脆弱性タイプの特徴を識別するために複数の分類器を使用し、その出力を組み合わせて特定のタイプの脆弱性を特定する。
各分類器は、型固有の脆弱性セマンティクスを学ぶように設計されている。
さらに、いくつかの脆弱性タイプのデータの不足に対処し、より優れた脆弱性セマンティクスを学ぶためのデータの多様性を高めるために、脆弱性の数を増やすための新たな脆弱性保存データ拡張技術を提案する。
プログラムセマンティクスを学習するためのグラフニューラルネットワークの最近の進歩からインスピレーションを得て、Gated Graph Neural Network(GGNN)を導入し、エッジを意識したGGNNに拡張し、エッジタイプの情報をキャプチャする。
FGVulDetはGitHubの大規模なデータセットでトレーニングされており、5種類の脆弱性を含んでいる。
静的解析に基づくアプローチや学習に基づくアプローチと比較して、FGVulDetの有効性が実証された。
関連論文リスト
- Can An Old Fashioned Feature Extraction and A Light-weight Model Improve
Vulnerability Type Identification Performance? [6.423483122892239]
脆弱性型識別(VTI)の問題点について検討する。
我々は、大規模な脆弱性セットに基づいて、VTIのためのよく知られた、先進的な事前訓練モデルの性能を評価する。
ベースラインアプローチの予測を洗練させるために,軽量な独立コンポーネントを導入する。
論文 参考訳(メタデータ) (2023-06-26T14:28:51Z) - LIVABLE: Exploring Long-Tailed Classification of Software Vulnerability
Types [18.949810432641772]
本稿では,LIVABLE と呼ばれる,Long-taIled ソフトウェア VulnerABiLity 型分類手法を提案する。
LIVABLEは(1)脆弱性表現学習モジュールを含む2つのモジュールで構成される。
シーケンシャル・ツー・シーケンスモデルも脆弱性表現を強化するために関与する。
論文 参考訳(メタデータ) (2023-06-12T08:14:16Z) - Learning to Quantize Vulnerability Patterns and Match to Locate
Statement-Level Vulnerabilities [19.6975205650411]
さまざまな脆弱性パターンを表す量子化されたベクトルで構成される脆弱性コードブックが学習される。
推論の間、コードブックは、すべての学習パターンにマッチし、潜在的な脆弱性の存在を予測するために反復される。
提案手法は188,000以上のC/C++関数からなる実世界のデータセットに対して広範に評価された。
論文 参考訳(メタデータ) (2023-05-26T04:13:31Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - DCDetector: An IoT terminal vulnerability mining system based on
distributed deep ensemble learning under source code representation [2.561778620560749]
この研究の目的は、C/C++のような高レベルの言語のソースコードの脆弱性をインテリジェントに検出することである。
これにより、ソースコードのセンシティブな文関連スライスをコード表現し、分散深層学習モデルの設計により脆弱性を検出することができる。
実験により,従来の静的解析の偽陽性率を低減し,機械学習の性能と精度を向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-11-29T14:19:14Z) - Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。
シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T19:57:19Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z) - Information Obfuscation of Graph Neural Networks [96.8421624921384]
本稿では,グラフ構造化データを用いた学習において,情報難読化による機密属性保護の問題について検討する。
本稿では,全変動量とワッサーシュタイン距離を交互に学習することで,事前決定された機密属性を局所的にフィルタリングするフレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-28T17:55:04Z) - Graph Backdoor [53.70971502299977]
GTAはグラフニューラルネットワーク(GNN)に対する最初のバックドア攻撃である。
GTAは、トポロジカル構造と記述的特徴の両方を含む特定の部分グラフとしてトリガーを定義する。
トランスダクティブ(ノード分類など)とインダクティブ(グラフ分類など)の両方のタスクに対してインスタンス化することができる。
論文 参考訳(メタデータ) (2020-06-21T19:45:30Z) - $\mu$VulDeePecker: A Deep Learning-Based System for Multiclass
Vulnerability Detection [24.98991662345816]
VulDeePeckerと呼ばれるマルチクラス脆弱性検出のための,最初のディープラーニングベースのシステムを提案する。
関連スポンサーコンテンツ $mu$VulDeePeckerの根底にある重要な洞察は、コードアテンションの概念です。
実験によると、$mu$VulDeePeckerはマルチクラスの脆弱性検出に有効であり、制御依存性の調整がより高い検出能力をもたらす可能性がある。
論文 参考訳(メタデータ) (2020-01-08T01:47:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。