論文の概要: Security Vulnerability Detection Using Deep Learning Natural Language
Processing
- arxiv url: http://arxiv.org/abs/2105.02388v1
- Date: Thu, 6 May 2021 01:28:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-08 00:38:31.713601
- Title: Security Vulnerability Detection Using Deep Learning Natural Language
Processing
- Title(参考訳): ディープラーニング自然言語処理を用いたセキュリティ脆弱性検出
- Authors: Noah Ziems, Shaoen Wu
- Abstract要約: ソースコードをテキストとして扱う自然言語処理(NLP)問題としてソフトウェア脆弱性検出をモデル化する。
トレーニングとテストのために、123タイプの脆弱性を持つ$C$プログラミング言語で10000以上のファイルのデータセットを構築しました。
実験は、セキュリティ脆弱性の検出において93%以上の精度で最高のパフォーマンスを生み出します。
- 参考スコア(独自算出の注目度): 1.4591078795663772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting security vulnerabilities in software before they are exploited has
been a challenging problem for decades. Traditional code analysis methods have
been proposed, but are often ineffective and inefficient. In this work, we
model software vulnerability detection as a natural language processing (NLP)
problem with source code treated as texts, and address the automated software
venerability detection with recent advanced deep learning NLP models assisted
by transfer learning on written English. For training and testing, we have
preprocessed the NIST NVD/SARD databases and built a dataset of over 100,000
files in $C$ programming language with 123 types of vulnerabilities. The
extensive experiments generate the best performance of over 93\% accuracy in
detecting security vulnerabilities.
- Abstract(参考訳): ソフトウェアが悪用される前にセキュリティ上の脆弱性を検出することは、何十年にもわたって難しい問題だった。
従来のコード解析手法は提案されているが、しばしば非効率で非効率である。
本研究では、ソースコードをテキストとして扱う自然言語処理(NLP)問題としてソフトウェア脆弱性検出をモデル化し、近年の高度なディープラーニングNLPモデルを用いて、テキストによる翻訳学習を補助する自動化ソフトウェアベネラビリティ検出に対処する。
トレーニングとテストのために、NIST NVD/SARDデータベースを前処理し、123種類の脆弱性を持つ$C$プログラミング言語で10,000以上のファイルのデータセットを構築しました。
広範な実験は、セキュリティ脆弱性の検出において、93\%以上の精度で最高のパフォーマンスを生み出す。
関連論文リスト
- Exploring Safety Generalization Challenges of Large Language Models via Code [126.80573601180411]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
調査によると、CodeAttackは全モデルの80%以上の安全ガードレールを一貫してバイパスしている。
CodeAttackと自然言語の間の大きな分散ギャップは、安全性の一般化を弱める。
論文 参考訳(メタデータ) (2024-03-12T17:55:38Z) - Your Instructions Are Not Always Helpful: Assessing the Efficacy of
Instruction Fine-tuning for Software Vulnerability Detection [9.763041664345105]
ソフトウェアは、固有の脆弱性のために潜在的なサイバーセキュリティリスクを引き起こす。
ディープラーニングは、広範な機能エンジニアリングを必要とせずに、優れたパフォーマンスを実現することができるため、このタスクの効果的なツールとして期待されている。
最近の研究は、多様なタスクにおけるディープラーニングの有効性を強調している。
本稿では,モデル,特に最近の言語モデルが,学習データに使用されるプログラミング言語を超えて一般化する能力について検討する。
論文 参考訳(メタデータ) (2024-01-15T04:45:27Z) - Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。
既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。
本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文 参考訳(メタデータ) (2023-10-08T10:08:21Z) - The FormAI Dataset: Generative AI in Software Security Through the Lens
of Formal Verification [3.4887856546295333]
本稿では,脆弱性分類を伴う112,000のAI生成Cプログラムの大規模なコレクションであるFormAIデータセットを提案する。
すべてのプログラムには、型、行番号、脆弱な関数名を示すソースコード内の脆弱性がラベル付けされている。
ソースコードは112,000のプログラムで利用でき、各プログラムで検出された脆弱性を含む別のファイルが付属する。
論文 参考訳(メタデータ) (2023-07-05T10:39:58Z) - Transformer-based Vulnerability Detection in Code at EditTime:
Zero-shot, Few-shot, or Fine-tuning? [5.603751223376071]
脆弱性のあるコードパターンの大規模データセットにディープラーニングを活用する実用的なシステムを提案する。
美術品の脆弱性検出モデルと比較すると,我々の手法は工芸品の状態を10%改善する。
論文 参考訳(メタデータ) (2023-05-23T01:21:55Z) - Vulnerability Detection Using Two-Stage Deep Learning Models [0.0]
C/C++ソースコードの脆弱性検出には,2つのディープラーニングモデルが提案されている。
最初のステージはCNNで、ソースコードに脆弱性があるかどうかを検出する。
2番目のステージは、この脆弱性を50種類の脆弱性のクラスに分類するCNN-LTSMである。
論文 参考訳(メタデータ) (2023-05-08T22:12:34Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - On the Security Vulnerabilities of Text-to-SQL Models [37.960927993317526]
6つの商用アプリケーション内のモジュールは悪意のあるコードを生成するために操作可能であることを示す。
これはNLPモデルが野生の攻撃ベクトルとして活用できる最初の実演である。
この研究の目的は、NLPアルゴリズムに関連する潜在的なソフトウェアセキュリティ問題にコミュニティの注意を向けることである。
論文 参考訳(メタデータ) (2022-11-28T14:38:45Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Exploring Software Naturalness through Neural Language Models [56.1315223210742]
ソフトウェア自然性仮説(Software Naturalness hypothesis)は、自然言語処理で使用されるのと同じ手法でプログラミング言語を理解することができると主張している。
この仮説は,事前学習されたトランスフォーマーベース言語モデルを用いて,コード解析タスクを実行することによって検討する。
論文 参考訳(メタデータ) (2020-06-22T21:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。