論文の概要: Security Vulnerability Detection Using Deep Learning Natural Language
Processing
- arxiv url: http://arxiv.org/abs/2105.02388v1
- Date: Thu, 6 May 2021 01:28:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-08 00:38:31.713601
- Title: Security Vulnerability Detection Using Deep Learning Natural Language
Processing
- Title(参考訳): ディープラーニング自然言語処理を用いたセキュリティ脆弱性検出
- Authors: Noah Ziems, Shaoen Wu
- Abstract要約: ソースコードをテキストとして扱う自然言語処理(NLP)問題としてソフトウェア脆弱性検出をモデル化する。
トレーニングとテストのために、123タイプの脆弱性を持つ$C$プログラミング言語で10000以上のファイルのデータセットを構築しました。
実験は、セキュリティ脆弱性の検出において93%以上の精度で最高のパフォーマンスを生み出します。
- 参考スコア(独自算出の注目度): 1.4591078795663772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting security vulnerabilities in software before they are exploited has
been a challenging problem for decades. Traditional code analysis methods have
been proposed, but are often ineffective and inefficient. In this work, we
model software vulnerability detection as a natural language processing (NLP)
problem with source code treated as texts, and address the automated software
venerability detection with recent advanced deep learning NLP models assisted
by transfer learning on written English. For training and testing, we have
preprocessed the NIST NVD/SARD databases and built a dataset of over 100,000
files in $C$ programming language with 123 types of vulnerabilities. The
extensive experiments generate the best performance of over 93\% accuracy in
detecting security vulnerabilities.
- Abstract(参考訳): ソフトウェアが悪用される前にセキュリティ上の脆弱性を検出することは、何十年にもわたって難しい問題だった。
従来のコード解析手法は提案されているが、しばしば非効率で非効率である。
本研究では、ソースコードをテキストとして扱う自然言語処理(NLP)問題としてソフトウェア脆弱性検出をモデル化し、近年の高度なディープラーニングNLPモデルを用いて、テキストによる翻訳学習を補助する自動化ソフトウェアベネラビリティ検出に対処する。
トレーニングとテストのために、NIST NVD/SARDデータベースを前処理し、123種類の脆弱性を持つ$C$プログラミング言語で10,000以上のファイルのデータセットを構築しました。
広範な実験は、セキュリティ脆弱性の検出において、93\%以上の精度で最高のパフォーマンスを生み出す。
関連論文リスト
- Secret Breach Prevention in Software Issue Reports [2.8747015994080285]
本稿では,ソフトウェア問題報告における秘密漏洩検出のための新しい手法を提案する。
ログファイル、URL、コミットID、スタックトレース、ダミーパスワードなど、ノイズによって引き起こされる課題を強調します。
本稿では,最先端技術の強みと言語モデルの文脈的理解を組み合わせたアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-31T06:14:17Z) - RealVul: Can We Detect Vulnerabilities in Web Applications with LLM? [4.467475584754677]
本稿では,PHP 脆弱性検出用に設計された最初の LLM ベースのフレームワークである RealVul を紹介する。
コードの合理化と不要なセマンティック情報を排除しながら、潜在的な脆弱性トリガを分離できます。
また、データ合成法の改善により、PHPの脆弱性サンプルが不足している問題にも対処する。
論文 参考訳(メタデータ) (2024-10-10T03:16:34Z) - Automated Software Vulnerability Static Code Analysis Using Generative Pre-Trained Transformer Models [0.8192907805418583]
生成事前学習トランスフォーマーモデルは、様々な自然言語処理タスクにおいて驚くほど効果的であることが示されている。
我々は,脆弱なコード構文の存在を自動的に識別するタスクにおいて,オープンソースのGPTモデルの有効性を評価する。
論文 参考訳(メタデータ) (2024-07-31T23:33:26Z) - CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。
CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文 参考訳(メタデータ) (2024-03-12T17:55:38Z) - Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。
既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。
本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文 参考訳(メタデータ) (2023-10-08T10:08:21Z) - The FormAI Dataset: Generative AI in Software Security Through the Lens of Formal Verification [3.2925005312612323]
本稿では,脆弱性分類を伴う112,000のAI生成Cプログラムの大規模なコレクションであるFormAIデータセットを提案する。
すべてのプログラムには、型、行番号、脆弱な関数名を示すソースコード内の脆弱性がラベル付けされている。
ソースコードは112,000のプログラムで利用でき、各プログラムで検出された脆弱性を含む別のファイルが付属する。
論文 参考訳(メタデータ) (2023-07-05T10:39:58Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - On the Security Vulnerabilities of Text-to-SQL Models [34.749129843281196]
6つの商用アプリケーション内のモジュールは悪意のあるコードを生成するために操作可能であることを示す。
これはNLPモデルが野生の攻撃ベクトルとして活用できる最初の実演である。
この研究の目的は、NLPアルゴリズムに関連する潜在的なソフトウェアセキュリティ問題にコミュニティの注意を向けることである。
論文 参考訳(メタデータ) (2022-11-28T14:38:45Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Exploring Software Naturalness through Neural Language Models [56.1315223210742]
ソフトウェア自然性仮説(Software Naturalness hypothesis)は、自然言語処理で使用されるのと同じ手法でプログラミング言語を理解することができると主張している。
この仮説は,事前学習されたトランスフォーマーベース言語モデルを用いて,コード解析タスクを実行することによって検討する。
論文 参考訳(メタデータ) (2020-06-22T21:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。