論文の概要: Text generation for dataset augmentation in security classification
tasks
- arxiv url: http://arxiv.org/abs/2310.14429v1
- Date: Sun, 22 Oct 2023 22:25:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 23:50:54.539336
- Title: Text generation for dataset augmentation in security classification
tasks
- Title(参考訳): セキュリティ分類タスクにおけるデータセット拡張のためのテキスト生成
- Authors: Alexander P. Welsh and Matthew Edwards
- Abstract要約: 本研究では、複数のセキュリティ関連テキスト分類タスクにおいて、このデータギャップを埋めるための自然言語テキストジェネレータの適用性を評価する。
我々は,GPT-3データ拡張戦略において,既知の正のクラスサンプルに厳しい制約がある状況において,大きなメリットを見出した。
- 参考スコア(独自算出の注目度): 55.70844429868403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Security classifiers, designed to detect malicious content in computer
systems and communications, can underperform when provided with insufficient
training data. In the security domain, it is often easy to find samples of the
negative (benign) class, and challenging to find enough samples of the positive
(malicious) class to train an effective classifier. This study evaluates the
application of natural language text generators to fill this data gap in
multiple security-related text classification tasks. We describe a variety of
previously-unexamined language-model fine-tuning approaches for this purpose
and consider in particular the impact of disproportionate class-imbalances in
the training set. Across our evaluation using three state-of-the-art
classifiers designed for offensive language detection, review fraud detection,
and SMS spam detection, we find that models trained with GPT-3 data
augmentation strategies outperform both models trained without augmentation and
models trained using basic data augmentation strategies already in common
usage. In particular, we find substantial benefits for GPT-3 data augmentation
strategies in situations with severe limitations on known positive-class
samples.
- Abstract(参考訳): コンピュータシステムや通信における悪意のあるコンテンツを検出するために設計されたセキュリティ分類器は、不十分なトレーニングデータを提供すると性能が低下する可能性がある。
セキュリティ領域では、しばしば負の(良性の)クラスのサンプルを見つけるのが簡単であり、効果的な分類器を訓練するために正の(悪質な)クラスの十分なサンプルを見つけるのが困難である。
本研究では,複数のセキュリティ関連テキスト分類タスクにおいて,このデータギャップを埋める自然言語テキスト生成器の適用性を評価する。
本稿では,この目的のために,前例のない言語モデルの微調整手法を多用し,特にトレーニングセットにおける不釣り合いなクラス不均衡の影響について考察する。
攻撃的言語検出, 不正検出, SMSスパム検出のために設計された3つの最先端分類器を用いて評価した結果, GPT-3データ拡張戦略で訓練されたモデルは, 拡張なしで訓練されたモデルと, すでに使用されている基本データ拡張戦略で訓練されたモデルの両方より優れていることがわかった。
特に,GPT-3データ拡張戦略の有意なメリットは,既知の正のクラスサンプルに厳格な制限がある場合にある。
関連論文リスト
- Selecting Between BERT and GPT for Text Classification in Political Science Research [4.487884986288122]
低データシナリオにおけるBERTモデルとGPTモデルの有効性を評価する。
パフォーマンス、使いやすさ、コストの観点から、これらのアプローチを比較して結論付けます。
論文 参考訳(メタデータ) (2024-11-07T07:29:39Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - Multi-Level Fine-Tuning, Data Augmentation, and Few-Shot Learning for
Specialized Cyber Threat Intelligence [0.0]
新たなインシデント毎に新しい分類器を訓練するシステムを提案する。
これは、標準的なトレーニング方法を使用してラベル付きデータをたくさん必要とします。
2021年のMicrosoft Exchange Serverデータ流出から得られた新しいデータセットを用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-07-22T13:34:28Z) - Guiding Generative Language Models for Data Augmentation in Few-Shot
Text Classification [59.698811329287174]
我々は、GPT-2を用いて、分類性能を向上させるために、人工訓練インスタンスを生成する。
実験の結果,少数のラベルインスタンスでGPT-2を微調整すると,一貫した分類精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-11-17T12:10:03Z) - Few-Shot Text Classification with Triplet Networks, Data Augmentation,
and Curriculum Learning [11.66053357388062]
Few-shot テキスト分類は、モデルがテキストを多数のカテゴリに分類することを目的とした基本的な NLP タスクである。
本稿では,限られたデータを用いたトレーニングに特に適したデータ拡張について検討する。
私たちは、一般的なデータ拡張技術がトリプルトネットワークのパフォーマンスを平均で最大3.0%改善できることを見出します。
論文 参考訳(メタデータ) (2021-03-12T22:07:35Z) - Improving speech recognition models with small samples for air traffic
control systems [9.322392779428505]
本研究では, 小さなトレーニングサンプルの課題に対処すべく, 事前学習とトランスファー学習に基づく新しいトレーニング手法を提案する。
3つの実際のATCデータセットを使用して、提案されたASRモデルとトレーニング戦略を検証する。
実験の結果,ASRの性能は3つのデータセットで大幅に向上した。
論文 参考訳(メタデータ) (2021-02-16T08:28:52Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Revisiting LSTM Networks for Semi-Supervised Text Classification via
Mixed Objective Function [106.69643619725652]
我々は,単純なBiLSTMモデルであっても,クロスエントロピー損失でトレーニングした場合に,競争的な結果が得られるようなトレーニング戦略を開発する。
いくつかのベンチマークデータセット上で,テキスト分類タスクの最先端結果について報告する。
論文 参考訳(メタデータ) (2020-09-08T21:55:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。