論文の概要: Learning to Quantize Vulnerability Patterns and Match to Locate
Statement-Level Vulnerabilities
- arxiv url: http://arxiv.org/abs/2306.06109v1
- Date: Fri, 26 May 2023 04:13:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-18 12:51:32.180806
- Title: Learning to Quantize Vulnerability Patterns and Match to Locate
Statement-Level Vulnerabilities
- Title(参考訳): 脆弱性パターンの量子化とステートメントレベル脆弱性のマッチングの学習
- Authors: Michael Fu, Trung Le, Van Nguyen, Chakkrit Tantithamthavorn, Dinh
Phung
- Abstract要約: さまざまな脆弱性パターンを表す量子化されたベクトルで構成される脆弱性コードブックが学習される。
推論の間、コードブックは、すべての学習パターンにマッチし、潜在的な脆弱性の存在を予測するために反復される。
提案手法は188,000以上のC/C++関数からなる実世界のデータセットに対して広範に評価された。
- 参考スコア(独自算出の注目度): 19.6975205650411
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning (DL) models have become increasingly popular in identifying
software vulnerabilities. Prior studies found that vulnerabilities across
different vulnerable programs may exhibit similar vulnerable scopes, implicitly
forming discernible vulnerability patterns that can be learned by DL models
through supervised training. However, vulnerable scopes still manifest in
various spatial locations and formats within a program, posing challenges for
models to accurately identify vulnerable statements. Despite this challenge,
state-of-the-art vulnerability detection approaches fail to exploit the
vulnerability patterns that arise in vulnerable programs. To take full
advantage of vulnerability patterns and unleash the ability of DL models, we
propose a novel vulnerability-matching approach in this paper, drawing
inspiration from program analysis tools that locate vulnerabilities based on
pre-defined patterns. Specifically, a vulnerability codebook is learned, which
consists of quantized vectors representing various vulnerability patterns.
During inference, the codebook is iterated to match all learned patterns and
predict the presence of potential vulnerabilities within a given program. Our
approach was extensively evaluated on a real-world dataset comprising more than
188,000 C/C++ functions. The evaluation results show that our approach achieves
an F1-score of 94% (6% higher than the previous best) and 82% (19% higher than
the previous best) for function and statement-level vulnerability
identification, respectively. These substantial enhancements highlight the
effectiveness of our approach to identifying vulnerabilities. The training code
and pre-trained models are available at https://github.com/optimatch/optimatch.
- Abstract(参考訳): ディープラーニング(DL)モデルは、ソフトウェア脆弱性の特定において、ますます人気が高まっている。
以前の研究では、異なる脆弱性プログラムにまたがる脆弱性は、同様に脆弱なスコープを示し、教師付きトレーニングを通じてDLモデルによって学習できる識別可能な脆弱性パターンを暗黙的に形成することを発見した。
しかしながら、脆弱なスコープはプログラム内の様々な空間的場所やフォーマットにまだ現れており、脆弱なステートメントを正確に識別するモデルの課題を提起している。
この課題にもかかわらず、最先端の脆弱性検出アプローチは、脆弱なプログラムで発生する脆弱性パターンを悪用しない。
本稿では,脆弱性パターンをフル活用し,DLモデルの能力を解き放つために,事前に定義されたパターンに基づいて脆弱性を検出するプログラム解析ツールから着想を得た,新たな脆弱性マッチング手法を提案する。
具体的には、さまざまな脆弱性パターンを表す量子化されたベクトルからなる脆弱性コードブックが学習される。
推論中、コードブックは学習したすべてのパターンにマッチし、プログラム内の潜在的な脆弱性を予測できるように反復される。
提案手法は188,000以上のc/c++関数からなる実世界のデータセット上で広く評価された。
評価の結果,f1-scoreは94%(前者より6%高い),82%(前者より19%高い)の関数と文レベルの脆弱性識別を達成できた。
これらの大幅な強化は、脆弱性を特定するアプローチの有効性を強調します。
トレーニングコードと事前トレーニングされたモデルは、https://github.com/optimatch/optimatch.comで入手できる。
関連論文リスト
- Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。
このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。
本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文 参考訳(メタデータ) (2024-02-07T21:58:40Z) - The Vulnerability Is in the Details: Locating Fine-grained Information
of Vulnerable Code Identified by Graph-based Detectors [39.01486277170386]
VULEXPLAINERは、粗いレベルの脆弱なコードスニペットから脆弱性クリティカルなコード行を見つけるためのツールである。
C/C++の一般的な8つの脆弱性に対して、90%の精度で脆弱性をトリガするコードステートメントにフラグを付けることができる。
論文 参考訳(メタデータ) (2024-01-05T10:15:04Z) - How Far Have We Gone in Vulnerability Detection Using Large Language
Models [15.09461331135668]
包括的な脆弱性ベンチマークであるVulBenchを紹介します。
このベンチマークは、幅広いCTF課題と実世界のアプリケーションから高品質なデータを集約する。
いくつかのLSMは、脆弱性検出における従来のディープラーニングアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-21T08:20:39Z) - Can An Old Fashioned Feature Extraction and A Light-weight Model Improve
Vulnerability Type Identification Performance? [6.423483122892239]
脆弱性型識別(VTI)の問題点について検討する。
我々は、大規模な脆弱性セットに基づいて、VTIのためのよく知られた、先進的な事前訓練モデルの性能を評価する。
ベースラインアプローチの予測を洗練させるために,軽量な独立コンポーネントを導入する。
論文 参考訳(メタデータ) (2023-06-26T14:28:51Z) - LIVABLE: Exploring Long-Tailed Classification of Software Vulnerability
Types [18.949810432641772]
本稿では,LIVABLE と呼ばれる,Long-taIled ソフトウェア VulnerABiLity 型分類手法を提案する。
LIVABLEは(1)脆弱性表現学習モジュールを含む2つのモジュールで構成される。
シーケンシャル・ツー・シーケンスモデルも脆弱性表現を強化するために関与する。
論文 参考訳(メタデータ) (2023-06-12T08:14:16Z) - Vulnerability Detection Using Two-Stage Deep Learning Models [0.0]
C/C++ソースコードの脆弱性検出には,2つのディープラーニングモデルが提案されている。
最初のステージはCNNで、ソースコードに脆弱性があるかどうかを検出する。
2番目のステージは、この脆弱性を50種類の脆弱性のクラスに分類するCNN-LTSMである。
論文 参考訳(メタデータ) (2023-05-08T22:12:34Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。
シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T19:57:19Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。