論文の概要: VUDENC: Vulnerability Detection with Deep Learning on a Natural Codebase
for Python
- arxiv url: http://arxiv.org/abs/2201.08441v1
- Date: Thu, 20 Jan 2022 20:29:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-24 15:02:43.338436
- Title: VUDENC: Vulnerability Detection with Deep Learning on a Natural Codebase
for Python
- Title(参考訳): VUDENC: Pythonの自然なコードベース上でのディープラーニングによる脆弱性検出
- Authors: Laura Wartschinski, Yannic Noller, Thomas Vogel, Timo Kehrer, Lars
Grunske
- Abstract要約: VUDENCはディープラーニングベースの脆弱性検出ツールである。
大規模で現実世界のPythonコーパスから脆弱性のあるコードの特徴を学ぶ。
VUDENCのリコール率は78%-87%、精度82%-96%、F1スコア80%-90%である。
- 参考スコア(独自算出の注目度): 8.810543294798485
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Context: Identifying potential vulnerable code is important to improve the
security of our software systems. However, the manual detection of software
vulnerabilities requires expert knowledge and is time-consuming, and must be
supported by automated techniques. Objective: Such automated vulnerability
detection techniques should achieve a high accuracy, point developers directly
to the vulnerable code fragments, scale to real-world software, generalize
across the boundaries of a specific software project, and require no or only
moderate setup or configuration effort. Method: In this article, we present
VUDENC (Vulnerability Detection with Deep Learning on a Natural Codebase), a
deep learning-based vulnerability detection tool that automatically learns
features of vulnerable code from a large and real-world Python codebase. VUDENC
applies a word2vec model to identify semantically similar code tokens and to
provide a vector representation. A network of long-short-term memory cells
(LSTM) is then used to classify vulnerable code token sequences at a
fine-grained level, highlight the specific areas in the source code that are
likely to contain vulnerabilities, and provide confidence levels for its
predictions. Results: To evaluate VUDENC, we used 1,009 vulnerability-fixing
commits from different GitHub repositories that contain seven different types
of vulnerabilities (SQL injection, XSS, Command injection, XSRF, Remote code
execution, Path disclosure, Open redirect) for training. In the experimental
evaluation, VUDENC achieves a recall of 78%-87%, a precision of 82%-96%, and an
F1 score of 80%-90%. VUDENC's code, the datasets for the vulnerabilities, and
the Python corpus for the word2vec model are available for reproduction.
Conclusions: Our experimental results suggest...
- Abstract(参考訳): コンテキスト:潜在的な脆弱なコードを特定することは、ソフトウェアシステムのセキュリティを改善する上で重要です。
しかし、ソフトウェアの脆弱性を手動で検出するには専門家の知識が必要であり、時間を要する。
目的:このような自動化された脆弱性検出技術は、高い精度を達成し、開発者が脆弱なコードフラグメントに直接指示し、現実世界のソフトウェアにスケールし、特定のソフトウェアプロジェクトの境界をまたいで一般化し、設定や設定を適度に必要としない。
提案するVUDENC(Vulnerability Detection with Deep Learning on a Natural Codebase)は,大規模かつ現実的なPythonコードベースから脆弱性コードの特徴を自動的に学習する,ディープラーニングベースの脆弱性検出ツールである。
VUDENCは、意味的に類似したコードトークンを識別し、ベクトル表現を提供するために word2vec モデルを適用している。
長期メモリセル(LSTM)のネットワークを使用して、脆弱なコードトークンシーケンスをきめ細かなレベルで分類し、脆弱性を含む可能性のあるソースコードの特定領域を強調し、その予測に信頼性レベルを提供する。
結果: vudencを評価するために,7種類の脆弱性(sqlインジェクション,xss,コマンドインジェクション,xsrf,リモートコード実行,パス公開,オープンリダイレクト)を含む,さまざまなgithubリポジトリからの1,009の脆弱性フィックスコミットをトレーニングに使用しました。
実験評価では、vudencは78%-87%、精度は82%-96%、f1スコアは80%-90%であった。
vudencのコード、脆弱性のデータセット、およびword2vecモデルのpythonコーパスは、再現のために利用可能である。
結論: 我々の実験結果は...
関連論文リスト
- RedCode: Risky Code Execution and Generation Benchmark for Code Agents [50.81206098588923]
RedCodeはリスクの高いコード実行と生成のためのベンチマークである。
RedCode-Execは、危険なコード実行につながる可能性のある、挑戦的なプロンプトを提供する。
RedCode-Genは160のプロンプトに関数シグネチャとドキュメントを入力として提供し、コードエージェントが命令に従うかどうかを評価する。
論文 参考訳(メタデータ) (2024-11-12T13:30:06Z) - Vulnerability Detection in C/C++ Code with Deep Learning [3.105656247358225]
我々は、C/C++プログラムのソースコードから抽出したプログラムスライスでニューラルネットワークをトレーニングし、ソフトウェア脆弱性を検出する。
この結果から,ソースコードの特徴の相違と,脆弱なプログラムスライスと非脆弱なプログラムスライスをバランスよく組み合わせることで,バランスの取れた精度が得られることがわかった。
論文 参考訳(メタデータ) (2024-05-20T21:39:19Z) - The Vulnerability Is in the Details: Locating Fine-grained Information of Vulnerable Code Identified by Graph-based Detectors [33.395068754566935]
VULEXPLAINERは、粗いレベルの脆弱なコードスニペットから脆弱性クリティカルなコード行を見つけるためのツールである。
C/C++の一般的な8つの脆弱性に対して、90%の精度で脆弱性をトリガするコードステートメントにフラグを付けることができる。
論文 参考訳(メタデータ) (2024-01-05T10:15:04Z) - Vulnerability Detection Using Two-Stage Deep Learning Models [0.0]
C/C++ソースコードの脆弱性検出には,2つのディープラーニングモデルが提案されている。
最初のステージはCNNで、ソースコードに脆弱性があるかどうかを検出する。
2番目のステージは、この脆弱性を50種類の脆弱性のクラスに分類するCNN-LTSMである。
論文 参考訳(メタデータ) (2023-05-08T22:12:34Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - Pre-trained Encoders in Self-Supervised Learning Improve Secure and
Privacy-preserving Supervised Learning [63.45532264721498]
自己教師付き学習は、ラベルのないデータを使ってエンコーダを事前訓練するための新しいテクニックである。
我々は、事前訓練されたエンコーダがセキュア・プライバシ保護型学習アルゴリズムの限界に対処できるかどうかを理解するための、最初の体系的、原則的な測定研究を行う。
論文 参考訳(メタデータ) (2022-12-06T21:35:35Z) - Deep-Learning-based Vulnerability Detection in Binary Executables [0.0]
本稿では,リカレントニューラルネットワークを用いた教師付き深層学習手法を提案する。
LLVM中間表現を標準化した形で、脆弱なコードの50,651個のデータセットを使用する。
任意の脆弱性の存在を検出するためにバイナリ分類が確立され、正確な脆弱性を特定するためにマルチクラスモデルが訓練された。
論文 参考訳(メタデータ) (2022-11-25T10:33:33Z) - Statement-Level Vulnerability Detection: Learning Vulnerability Patterns Through Information Theory and Contrastive Learning [31.15123852246431]
本稿では,特定の関数の脆弱性関連コード文を特定するために,エンドツーエンドのディープラーニングに基づく新しいアプローチを提案する。
実世界の脆弱なコードで観測される構造にインスパイアされ、私たちはまず、潜伏変数の集合を学習するために相互情報を活用する。
そこで我々は,表現学習をさらに改善するために,新しいクラスタ型空間コントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-09-20T00:46:20Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z) - COSEA: Convolutional Code Search with Layer-wise Attention [90.35777733464354]
我々は、畳み込みニューラルネットワークを階層的注意で活用し、コード固有の構造論理をキャプチャする新しいディープラーニングアーキテクチャ、COSEAを提案する。
COSEAは、コード検索タスクの最先端メソッドよりも大幅に改善できる。
論文 参考訳(メタデータ) (2020-10-19T13:53:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。