論文の概要: Learning to Quantize Vulnerability Patterns and Match to Locate
Statement-Level Vulnerabilities
- arxiv url: http://arxiv.org/abs/2306.06109v1
- Date: Fri, 26 May 2023 04:13:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-18 12:51:32.180806
- Title: Learning to Quantize Vulnerability Patterns and Match to Locate
Statement-Level Vulnerabilities
- Title(参考訳): 脆弱性パターンの量子化とステートメントレベル脆弱性のマッチングの学習
- Authors: Michael Fu, Trung Le, Van Nguyen, Chakkrit Tantithamthavorn, Dinh
Phung
- Abstract要約: さまざまな脆弱性パターンを表す量子化されたベクトルで構成される脆弱性コードブックが学習される。
推論の間、コードブックは、すべての学習パターンにマッチし、潜在的な脆弱性の存在を予測するために反復される。
提案手法は188,000以上のC/C++関数からなる実世界のデータセットに対して広範に評価された。
- 参考スコア(独自算出の注目度): 19.6975205650411
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning (DL) models have become increasingly popular in identifying
software vulnerabilities. Prior studies found that vulnerabilities across
different vulnerable programs may exhibit similar vulnerable scopes, implicitly
forming discernible vulnerability patterns that can be learned by DL models
through supervised training. However, vulnerable scopes still manifest in
various spatial locations and formats within a program, posing challenges for
models to accurately identify vulnerable statements. Despite this challenge,
state-of-the-art vulnerability detection approaches fail to exploit the
vulnerability patterns that arise in vulnerable programs. To take full
advantage of vulnerability patterns and unleash the ability of DL models, we
propose a novel vulnerability-matching approach in this paper, drawing
inspiration from program analysis tools that locate vulnerabilities based on
pre-defined patterns. Specifically, a vulnerability codebook is learned, which
consists of quantized vectors representing various vulnerability patterns.
During inference, the codebook is iterated to match all learned patterns and
predict the presence of potential vulnerabilities within a given program. Our
approach was extensively evaluated on a real-world dataset comprising more than
188,000 C/C++ functions. The evaluation results show that our approach achieves
an F1-score of 94% (6% higher than the previous best) and 82% (19% higher than
the previous best) for function and statement-level vulnerability
identification, respectively. These substantial enhancements highlight the
effectiveness of our approach to identifying vulnerabilities. The training code
and pre-trained models are available at https://github.com/optimatch/optimatch.
- Abstract(参考訳): ディープラーニング(DL)モデルは、ソフトウェア脆弱性の特定において、ますます人気が高まっている。
以前の研究では、異なる脆弱性プログラムにまたがる脆弱性は、同様に脆弱なスコープを示し、教師付きトレーニングを通じてDLモデルによって学習できる識別可能な脆弱性パターンを暗黙的に形成することを発見した。
しかしながら、脆弱なスコープはプログラム内の様々な空間的場所やフォーマットにまだ現れており、脆弱なステートメントを正確に識別するモデルの課題を提起している。
この課題にもかかわらず、最先端の脆弱性検出アプローチは、脆弱なプログラムで発生する脆弱性パターンを悪用しない。
本稿では,脆弱性パターンをフル活用し,DLモデルの能力を解き放つために,事前に定義されたパターンに基づいて脆弱性を検出するプログラム解析ツールから着想を得た,新たな脆弱性マッチング手法を提案する。
具体的には、さまざまな脆弱性パターンを表す量子化されたベクトルからなる脆弱性コードブックが学習される。
推論中、コードブックは学習したすべてのパターンにマッチし、プログラム内の潜在的な脆弱性を予測できるように反復される。
提案手法は188,000以上のc/c++関数からなる実世界のデータセット上で広く評価された。
評価の結果,f1-scoreは94%(前者より6%高い),82%(前者より19%高い)の関数と文レベルの脆弱性識別を達成できた。
これらの大幅な強化は、脆弱性を特定するアプローチの有効性を強調します。
トレーニングコードと事前トレーニングされたモデルは、https://github.com/optimatch/optimatch.comで入手できる。
関連論文リスト
- RealVul: Can We Detect Vulnerabilities in Web Applications with LLM? [4.467475584754677]
本稿では,PHP 脆弱性検出用に設計された最初の LLM ベースのフレームワークである RealVul を紹介する。
コードの合理化と不要なセマンティック情報を排除しながら、潜在的な脆弱性トリガを分離できます。
また、データ合成法の改善により、PHPの脆弱性サンプルが不足している問題にも対処する。
論文 参考訳(メタデータ) (2024-10-10T03:16:34Z) - Enhancing Code Vulnerability Detection via Vulnerability-Preserving Data Augmentation [29.72520866016839]
ソースコードの脆弱性検出は、潜在的な攻撃からソフトウェアシステムを保護するための固有の脆弱性を特定することを目的としている。
多くの先行研究は、様々な脆弱性の特徴を見落とし、問題をバイナリ(0-1)分類タスクに単純化した。
FGVulDetは、さまざまな脆弱性タイプの特徴を識別するために複数の分類器を使用し、その出力を組み合わせて特定の脆弱性タイプを特定する。
FGVulDetはGitHubの大規模なデータセットでトレーニングされており、5種類の脆弱性を含んでいる。
論文 参考訳(メタデータ) (2024-04-15T09:10:52Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。
このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。
本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文 参考訳(メタデータ) (2024-02-07T21:58:40Z) - How Far Have We Gone in Vulnerability Detection Using Large Language
Models [15.09461331135668]
包括的な脆弱性ベンチマークであるVulBenchを紹介します。
このベンチマークは、幅広いCTF課題と実世界のアプリケーションから高品質なデータを集約する。
いくつかのLSMは、脆弱性検出における従来のディープラーニングアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-21T08:20:39Z) - Can An Old Fashioned Feature Extraction and A Light-weight Model Improve
Vulnerability Type Identification Performance? [6.423483122892239]
脆弱性型識別(VTI)の問題点について検討する。
我々は、大規模な脆弱性セットに基づいて、VTIのためのよく知られた、先進的な事前訓練モデルの性能を評価する。
ベースラインアプローチの予測を洗練させるために,軽量な独立コンポーネントを導入する。
論文 参考訳(メタデータ) (2023-06-26T14:28:51Z) - LIVABLE: Exploring Long-Tailed Classification of Software Vulnerability
Types [18.949810432641772]
本稿では,LIVABLE と呼ばれる,Long-taIled ソフトウェア VulnerABiLity 型分類手法を提案する。
LIVABLEは(1)脆弱性表現学習モジュールを含む2つのモジュールで構成される。
シーケンシャル・ツー・シーケンスモデルも脆弱性表現を強化するために関与する。
論文 参考訳(メタデータ) (2023-06-12T08:14:16Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。