論文の概要: VMCDL: Vulnerability Mining Based on Cascaded Deep Learning Under Source
Control Flow
- arxiv url: http://arxiv.org/abs/2303.07128v1
- Date: Mon, 13 Mar 2023 13:58:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 14:41:10.761168
- Title: VMCDL: Vulnerability Mining Based on Cascaded Deep Learning Under Source
Control Flow
- Title(参考訳): vmcdl: ソース制御フロー下のカスケードディープラーニングに基づく脆弱性マイニング
- Authors: Wen Zhou
- Abstract要約: 本稿では,主にSARDデータセットのc/c++ソースコードデータを用いて,CWE476,CWE469,CWE516,CWE570の脆弱性型のソースコードを処理する。
本稿では,ソースコード制御フローに基づく新しいカスケード深層学習モデルVMCDLを提案し,脆弱性を効果的に検出する。
- 参考スコア(独自算出の注目度): 2.561778620560749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of the computer industry and computer software,
the risk of software vulnerabilities being exploited has greatly increased.
However, there are still many shortcomings in the existing mining techniques
for leakage source research, such as high false alarm rate, coarse-grained
detection, and dependence on expert experience. In this paper, we mainly use
the c/c++ source code data of the SARD dataset, process the source code of
CWE476, CWE469, CWE516 and CWE570 vulnerability types, test the Joern
vulnerability scanning function of the cutting-edge tool, and propose a new
cascading deep learning model VMCDL based on source code control flow to
effectively detect vulnerabilities. First, this paper uses joern to locate and
extract sensitive functions and statements to form a sensitive statement
library of vulnerable code. Then, the CFG flow vulnerability code snippets are
generated by bidirectional breadth-first traversal, and then vectorized by
Doc2vec. Finally, the cascade deep learning model based on source code control
flow is used for classification to obtain the classification results. In the
experimental evaluation, we give the test results of Joern on specific
vulnerabilities, and give the confusion matrix and label data of the binary
classification results of the model algorithm on single vulnerability type
source code, and compare and verify the five indicators of FPR, FNR, ACC, P and
F1, respectively reaching 10.30%, 5.20%, 92.50%,85.10% and 85.40%,which shows
that it can effectively reduce the false alarm rate of static analysis.
- Abstract(参考訳): コンピュータ産業とコンピュータソフトウェアの急速な発展により、ソフトウェアの脆弱性が悪用されるリスクは大きく増大した。
しかし、漏洩源調査のための既存の鉱業技術には、高い誤報率、粗粒度検出、専門家の経験への依存など、多くの欠点がある。
本稿では,主にSARDデータセットのc/c++ソースコードデータを使用し,CWE476,CWE469,CWE516,CWE570脆弱性型のソースコードを処理し,最先端ツールのJoern脆弱性スキャン機能をテストするとともに,ソースコード制御フローに基づく新たなカスケード深層学習モデルVMCDLを提案する。
まず,感性のある関数や文の探索と抽出にJoernを用い,脆弱なコードの文ライブラリを形成する。
そして、CFGフロー脆弱性コードスニペットを双方向の幅優先トラバーサルで生成し、Doc2vecでベクトル化する。
最後に、ソースコード制御フローに基づくカスケードディープラーニングモデルを用いて分類を行い、分類結果を得る。
実験評価では,特定の脆弱性についてJoernのテスト結果を与え,単一脆弱性型ソースコード上でモデルアルゴリズムのバイナリ分類結果の混乱行列とラベルデータを与え,FPR,FNR,ACC,P,F1の5指標をそれぞれ10.30%,520%,92.50%,85.10%,85.40%とし,静的解析の誤報率を効果的に低減できることを示した。
関連論文リスト
- Deep Autoencoders for Unsupervised Anomaly Detection in Wildfire Prediction [42.447827727628734]
森林火災は気候危機により地球生態系に深刻な危険をもたらす。
複雑な性質のため、機械学習のような野火の予測に対する革新的なアプローチが緊急に必要である。
この研究は、古典的な教師あり学習とは異なるユニークなアプローチを採り、教師なしの山火事予測のギャップに対処した。
論文 参考訳(メタデータ) (2024-11-14T23:19:55Z) - Vulnerability Detection with Code Language Models: How Far Are We? [40.455600722638906]
PrimeVulは、脆弱性検出のためのコードLMのトレーニングと評価のための新しいデータセットである。
これは、人間の検証されたベンチマークに匹敵するラベルの精度を達成する、新しいデータラベリング技術を含んでいる。
また、厳密なデータ重複解消戦略と時系列データ分割戦略を実装して、データの漏洩問題を軽減している。
論文 参考訳(メタデータ) (2024-03-27T14:34:29Z) - FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [54.27040631527217]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。
まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。
次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文 参考訳(メタデータ) (2024-03-27T09:45:33Z) - The Vulnerability Is in the Details: Locating Fine-grained Information of Vulnerable Code Identified by Graph-based Detectors [33.395068754566935]
VULEXPLAINERは、粗いレベルの脆弱なコードスニペットから脆弱性クリティカルなコード行を見つけるためのツールである。
C/C++の一般的な8つの脆弱性に対して、90%の精度で脆弱性をトリガするコードステートメントにフラグを付けることができる。
論文 参考訳(メタデータ) (2024-01-05T10:15:04Z) - Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。
既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。
本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文 参考訳(メタデータ) (2023-10-08T10:08:21Z) - An Unbiased Transformer Source Code Learning with Semantic Vulnerability
Graph [3.3598755777055374]
現在の脆弱性スクリーニング技術は、新しい脆弱性を特定したり、開発者がコード脆弱性と分類を提供するのに効果がない。
これらの問題に対処するために,変換器 "RoBERTa" とグラフ畳み込みニューラルネットワーク (GCN) を組み合わせたマルチタスク・アンバイアス脆弱性分類器を提案する。
本稿では、逐次フロー、制御フロー、データフローからエッジを統合することで生成されたソースコードからのセマンティック脆弱性グラフ(SVG)表現と、Poacher Flow(PF)と呼ばれる新しいフローを利用したトレーニングプロセスを提案する。
論文 参考訳(メタデータ) (2023-04-17T20:54:14Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - DCDetector: An IoT terminal vulnerability mining system based on
distributed deep ensemble learning under source code representation [2.561778620560749]
この研究の目的は、C/C++のような高レベルの言語のソースコードの脆弱性をインテリジェントに検出することである。
これにより、ソースコードのセンシティブな文関連スライスをコード表現し、分散深層学習モデルの設計により脆弱性を検出することができる。
実験により,従来の静的解析の偽陽性率を低減し,機械学習の性能と精度を向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-11-29T14:19:14Z) - A Hierarchical Deep Neural Network for Detecting Lines of Codes with
Vulnerabilities [6.09170287691728]
ソースコードの意図しない欠陥によって引き起こされるソフトウェア脆弱性は、サイバー攻撃の根本原因である。
本稿では,自然言語処理で使用されている手法に基づいて,LLVM IR表現から脆弱性を検出するためのディープラーニング手法を提案する。
論文 参考訳(メタデータ) (2022-11-15T21:21:27Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - Multi-context Attention Fusion Neural Network for Software Vulnerability
Identification [4.05739885420409]
ソースコードのセキュリティ脆弱性の共通カテゴリのいくつかを効率的に検出することを学ぶディープラーニングモデルを提案する。
モデルは、学習可能なパラメータの少ないコードセマンティクスの正確な理解を構築します。
提案したAIは、ベンチマークされたNIST SARDデータセットから特定のCWEに対して98.40%のF1スコアを達成する。
論文 参考訳(メタデータ) (2021-04-19T11:50:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。