論文の概要: CPE-Identifier: Automated CPE identification and CVE summaries annotation with Deep Learning and NLP
- arxiv url: http://arxiv.org/abs/2405.13568v1
- Date: Wed, 22 May 2024 12:05:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 00:24:16.600491
- Title: CPE-Identifier: Automated CPE identification and CVE summaries annotation with Deep Learning and NLP
- Title(参考訳): CPE-Identifier:ディープラーニングとNLPを用いたCPE識別とCVE要約アノテーション
- Authors: Wanyu Hu, Vrizlynn L. L. Thing,
- Abstract要約: 本稿では,CVE要約から自動CPE注釈抽出システムであるCPE-Identifierシステムを提案する。
このシステムは、新しいCVEテキスト入力からCPEエンティティを識別するツールとして使用できる。
また,NLP (Natural Language Processing) Named Entity Recognition (NER) を用いて,テキスト中の新しい技術用語を識別する。
- 参考スコア(独自算出の注目度): 0.28281736775010774
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the drastic increase in the number of new vulnerabilities in the National Vulnerability Database (NVD) every year, the workload for NVD analysts to associate the Common Platform Enumeration (CPE) with the Common Vulnerabilities and Exposures (CVE) summaries becomes increasingly laborious and slow. The delay causes organisations, which depend on NVD for vulnerability management and security measurement, to be more vulnerable to zero-day attacks. Thus, it is essential to come out with a technique and tool to extract the CPEs in the CVE summaries accurately and quickly. In this work, we propose the CPE-Identifier system, an automated CPE annotating and extracting system, from the CVE summaries. The system can be used as a tool to identify CPE entities from new CVE text inputs. Moreover, we also automate the data generating and labeling processes using deep learning models. Due to the complexity of the CVE texts, new technical terminologies appear frequently. To identify novel words in future CVE texts, we apply Natural Language Processing (NLP) Named Entity Recognition (NER), to identify new technical jargons in the text. Our proposed model achieves an F1 score of 95.48%, an accuracy score of 99.13%, a precision of 94.83%, and a recall of 96.14%. We show that it outperforms prior works on automated CVE-CPE labeling by more than 9% on all metrics.
- Abstract(参考訳): NVDアナリストがCommon Platform Enumeration(CPE)とCommon Vulnerabilities and Exposures(CVE)のサマリーを関連付ける作業は、毎年、National Vulnerability Database(NVD)の新たな脆弱性の数を大幅に増加させています。
この遅延により、脆弱性管理やセキュリティ測定にNVDに依存する組織は、ゼロデイ攻撃に対してより脆弱になる。
したがって、CVE要約中のCPEを正確にかつ迅速に抽出する技術やツールを考案することが不可欠である。
本研究では,CVE要約から自動CPE注釈抽出システムであるCPE-Identifierシステムを提案する。
このシステムは、新しいCVEテキスト入力からCPEエンティティを識別するツールとして使用できる。
さらに,ディープラーニングモデルを用いたデータ生成とラベル付けのプロセスも自動化する。
CVEテキストの複雑さのため、新しい技術用語が頻繁に現れる。
今後のCVEテキストにおける新しい単語を識別するために,NLP (Natural Language Processing) Named Entity Recognition (NER) を用いてテキスト内の新しい技術的用語を識別する。
提案モデルでは,F1スコアが95.48%,精度が99.13%,精度が94.83%,リコールが96.14%である。
自動CVE-CPEラベリングでは、すべてのメトリクスで9%以上性能が向上していることを示す。
関連論文リスト
- Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation [73.9145653659403]
生成誤差補正モデルは、トレーニング中に発生する特定の種類のエラーを超えて一般化することが困難であることを示す。
DARAGは、ドメイン内(ID)およびOODシナリオにおけるASRのためのGCCを改善するために設計された新しいアプローチである。
私たちのアプローチはシンプルでスケーラブルで、ドメインと言語に依存しません。
論文 参考訳(メタデータ) (2024-10-17T04:00:29Z) - SCoPE: Evaluating LLMs for Software Vulnerability Detection [0.0]
この研究は、コード関連タスクのモデルをトレーニングするために一般的に使用されるCVEFixesデータセットを調査し、洗練する。
SCoPEが生成した出力はCVEFixesの新バージョンを作成するために使われた。
その結果,SCoPEは評価されたサブセット内の905個の複製の同定に有効であった。
論文 参考訳(メタデータ) (2024-07-19T15:02:00Z) - Unveiling Hidden Links Between Unseen Security Entities [3.7138962865789353]
VulnScopperは、知識グラフ(KG)と自然言語処理(NLP)を組み合わせたマルチモーダル表現学習を利用した革新的なアプローチである。
我々は、National Vulnerability Database(NVD)とRed Hat CVEデータベースの2つの主要なセキュリティデータセットでVulnScopperを評価した。
VulnScopperは既存の手法よりも優れており、CVEをCWE(Common Vulnerabilities and Exposures)、CPE(Common Platform Languageions)にリンクする際の78%のHits@10精度を実現している。
論文 参考訳(メタデータ) (2024-03-04T13:14:39Z) - CVE-driven Attack Technique Prediction with Semantic Information
Extraction and a Domain-specific Language Model [2.1756081703276]
本稿では、CVE記述を分析し、CVEによるTTP攻撃を推測する革新的な技術を用いて、TTP予測ツールを提案する。
TTPpredictorは、ラベル付きデータとCVEとTP記述のセマンティックな相違によって引き起こされる課題を克服する。
本報告では,CVE分類の95%から98%からATT&CK技術まで,約98%,F1スコアの精度でTTP予測器の有効性を実証した経験的評価を行った。
論文 参考訳(メタデータ) (2023-09-06T06:53:45Z) - Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。
本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。
提案手法により,下流タスクの性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-03-08T03:56:31Z) - Privacy Adhering Machine Un-learning in NLP [66.17039929803933]
現実の業界では、機械学習を使ってユーザデータに基づくモデルを構築します。
このような委任事項には、データだけでなく、モデルの再トレーニングにも労力が要る。
データの継続的な削除と モデル再訓練のステップはスケールしません
この課題に対処するために、textitMachine Unlearningを提案する。
論文 参考訳(メタデータ) (2022-12-19T16:06:45Z) - KnowDA: All-in-One Knowledge Mixture Model for Data Augmentation in
Few-Shot NLP [68.43279384561352]
既存のデータ拡張アルゴリズムはタスク非依存のルールや微調整の汎用事前訓練言語モデルを利用する。
これらの手法は、簡単なタスク固有の知識を持ち、単純なタスクにおいて弱いベースラインのための低品質な合成データを得るに限られる。
我々は,様々なNLPタスクを予め学習したエンコーダ/デコーダLMの知識混合データ拡張モデル(KnowDA)を提案する。
論文 参考訳(メタデータ) (2022-06-21T11:34:02Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Anomaly Detection Based on Selection and Weighting in Latent Space [73.01328671569759]
SWADと呼ばれる新しい選択および重み付けに基づく異常検出フレームワークを提案する。
ベンチマークと実世界のデータセットによる実験は、SWADの有効性と優位性を示している。
論文 参考訳(メタデータ) (2021-03-08T10:56:38Z) - V2W-BERT: A Framework for Effective Hierarchical Multiclass
Classification of Software Vulnerabilities [7.906207218788341]
本稿では,Transformer-based learning framework(V2W-BERT)を提案する。
自然言語処理,リンク予測,転送学習のアイデアを用いることで,従来の手法よりも優れる。
ランダムに分割されたデータの予測精度は最大97%、一時分割されたデータの予測精度は最大94%です。
論文 参考訳(メタデータ) (2021-02-23T05:16:57Z) - ThreatZoom: CVE2CWE using Hierarchical Neural Network [4.254099382808598]
1つ以上のCVEは、Common Weakness Exposureion (CWE)クラスにグループ化される。
何千もの重要なCVEと新しいCVEは未分類のままだが、パッチできない。
本稿では,CVEをCWEに分類する最初の自動ツールを提案する。
論文 参考訳(メタデータ) (2020-09-24T06:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。