論文の概要: Few-Sample Named Entity Recognition for Security Vulnerability Reports
by Fine-Tuning Pre-Trained Language Models
- arxiv url: http://arxiv.org/abs/2108.06590v1
- Date: Sat, 14 Aug 2021 17:08:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-18 07:21:01.670382
- Title: Few-Sample Named Entity Recognition for Security Vulnerability Reports
by Fine-Tuning Pre-Trained Language Models
- Title(参考訳): 微調整事前学習言語モデルによるセキュリティ脆弱性レポートのエンティティ認識
- Authors: Guanqun Yang, Shay Dineen, Zhipeng Lin, Xueqing Liu
- Abstract要約: セキュリティ上の脆弱性の報告(例えばCVEレポート)は、コンピュータやネットワークシステムのメンテナンスにおいて重要な役割を果たしている。
これらのレポートは構造化されていないテキストであるため、自動情報抽出(IE)は処理のスケールアップに役立つ。
セキュリティ脆弱性レポートのための自動IEに関する既存の作業は、しばしば多数のラベル付きトレーニングサンプルに依存している。
- 参考スコア(独自算出の注目度): 1.9744907811058785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Public security vulnerability reports (e.g., CVE reports) play an important
role in the maintenance of computer and network systems. Security companies and
administrators rely on information from these reports to prioritize tasks on
developing and deploying patches to their customers. Since these reports are
unstructured texts, automatic information extraction (IE) can help scale up the
processing by converting the unstructured reports to structured forms, e.g.,
software names and versions and vulnerability types. Existing works on
automated IE for security vulnerability reports often rely on a large number of
labeled training samples. However, creating massive labeled training set is
both expensive and time consuming. In this work, for the first time, we propose
to investigate this problem where only a small number of labeled training
samples are available. In particular, we investigate the performance of
fine-tuning several state-of-the-art pre-trained language models on our small
training dataset. The results show that with pre-trained language models and
carefully tuned hyperparameters, we have reached or slightly outperformed the
state-of-the-art system on this task. Consistent with previous two-step process
of first fine-tuning on main category and then transfer learning to others as
in [7], if otherwise following our proposed approach, the number of required
labeled samples substantially decrease in both stages: 90% reduction in
fine-tuning from 5758 to 576,and 88.8% reduction in transfer learning with 64
labeled samples per category. Our experiments thus demonstrate the
effectiveness of few-sample learning on NER for security vulnerability report.
This result opens up multiple research opportunities for few-sample learning
for security vulnerability reports, which is discussed in the paper. Code:
https://github.com/guanqun-yang/FewVulnerability.
- Abstract(参考訳): 公開セキュリティ脆弱性レポート(cveレポートなど)は、コンピュータとネットワークシステムのメンテナンスにおいて重要な役割を果たす。
セキュリティ企業や管理者は、これらのレポートの情報に頼って、顧客へのパッチの開発とデプロイのタスクを優先している。
これらのレポートは構造化されていないテキストであるため、自動情報抽出(IE)は構造化されていないレポートを構造化された形式に変換することで処理のスケールアップに役立つ。
セキュリティ脆弱性レポートの自動IEに関する既存の作業は、しばしば多数のラベル付きトレーニングサンプルに依存している。
しかし、大量のラベル付きトレーニングセットを作成するのは、費用も時間もかかる。
そこで本研究では,ラベル付きトレーニングサンプルを少数しか使用できない問題について,本研究で初めて検討する。
特に,我々の小規模トレーニングデータセットにおける最先端の事前学習言語モデルの性能について検討した。
その結果、事前訓練された言語モデルと注意深く調整されたハイパーパラメーターにより、このタスクにおける最先端システムに到達またはわずかに優れることがわかった。
主カテゴリにおける最初の微調整と、[7]のように他のカテゴリへの転送学習の2段階のプロセスと一致し、もしそうでなければ両方の段階において必要なラベル付きサンプルの数は大幅に減少する: 微調整の90%が5758から576に減少し、88.8%が1カテゴリあたり64のラベル付きサンプルで転送学習を減少させる。
本実験は,NERの脆弱性レポートに対する少数サンプル学習の有効性を示すものである。
この結果から,セキュリティ脆弱性レポートの少数サンプル学習における複数の研究機会が開放され,論文で論じられている。
コード:https://github.com/guanqun-yang/FewVulnerability。
関連論文リスト
- Zero-shot prompt-based classification: topic labeling in times of foundation models in German Tweets [1.734165485480267]
そこで,本論文では,文章ガイドラインを用いてテキストを自動的に注釈付けするツールについて,トレーニングサンプルを提供することなく提案する。
提案手法は細調整されたBERTに匹敵するが,アノテートしたトレーニングデータはない。
本研究は,NLPランドスケープにおける進行中のパラダイムシフト,すなわち下流タスクの統一と事前ラベル付きトレーニングデータの必要性の排除を強調した。
論文 参考訳(メタデータ) (2024-06-26T10:44:02Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Text generation for dataset augmentation in security classification
tasks [55.70844429868403]
本研究では、複数のセキュリティ関連テキスト分類タスクにおいて、このデータギャップを埋めるための自然言語テキストジェネレータの適用性を評価する。
我々は,GPT-3データ拡張戦略において,既知の正のクラスサンプルに厳しい制約がある状況において,大きなメリットを見出した。
論文 参考訳(メタデータ) (2023-10-22T22:25:14Z) - Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised
Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。
我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。
UPETは性能と効率の面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-10-19T02:18:29Z) - LIVABLE: Exploring Long-Tailed Classification of Software Vulnerability
Types [18.949810432641772]
本稿では,LIVABLE と呼ばれる,Long-taIled ソフトウェア VulnerABiLity 型分類手法を提案する。
LIVABLEは(1)脆弱性表現学習モジュールを含む2つのモジュールで構成される。
シーケンシャル・ツー・シーケンスモデルも脆弱性表現を強化するために関与する。
論文 参考訳(メタデータ) (2023-06-12T08:14:16Z) - Cross Project Software Vulnerability Detection via Domain Adaptation and
Max-Margin Principle [21.684043656053106]
ソフトウェア脆弱性(SV)は、コンピュータソフトウェアの普及により、一般的で深刻な問題となっている。
これら2つの重要な問題に対処するための新しいエンドツーエンドアプローチを提案する。
提案手法は, SVDにおける最重要尺度であるF1尺度の精度を, 使用データセットの2番目に高い手法と比較して1.83%から6.25%に向上させる。
論文 参考訳(メタデータ) (2022-09-19T23:47:22Z) - VulBERTa: Simplified Source Code Pre-Training for Vulnerability
Detection [1.256413718364189]
VulBERTaは、ソースコードのセキュリティ脆弱性を検出するためのディープラーニングアプローチである。
当社のアプローチでは,オープンソースのC/C++プロジェクトの実世界のコードに対して,独自のトークン化パイプラインを備えたRoBERTaモデルを事前トレーニングする。
複数のデータセットにまたがるバイナリおよびマルチクラス脆弱性検出タスクに対するアプローチを評価する。
論文 参考訳(メタデータ) (2022-05-25T00:56:43Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - TSDAE: Using Transformer-based Sequential Denoising Auto-Encoder for
Unsupervised Sentence Embedding Learning [53.32740707197856]
TSDAE(Sequential Denoising Auto-Encoder)を用いた最新の非監視方式を提案する。
ドメイン内の監視されたアプローチのパフォーマンスの93.1%を達成することができる。
論文 参考訳(メタデータ) (2021-04-14T17:02:18Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。