論文の概要: Multi-Level Fine-Tuning, Data Augmentation, and Few-Shot Learning for
Specialized Cyber Threat Intelligence
- arxiv url: http://arxiv.org/abs/2207.11076v1
- Date: Fri, 22 Jul 2022 13:34:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-25 13:19:26.925388
- Title: Multi-Level Fine-Tuning, Data Augmentation, and Few-Shot Learning for
Specialized Cyber Threat Intelligence
- Title(参考訳): サイバー脅威インテリジェンスのためのマルチレベルファインチューニング、データ拡張、Few-Shot Learning
- Authors: Markus Bayer, Tobias Frey, Christian Reuter
- Abstract要約: 新たなインシデント毎に新しい分類器を訓練するシステムを提案する。
これは、標準的なトレーニング方法を使用してラベル付きデータをたくさん必要とします。
2021年のMicrosoft Exchange Serverデータ流出から得られた新しいデータセットを用いて,本手法の評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gathering cyber threat intelligence from open sources is becoming
increasingly important for maintaining and achieving a high level of security
as systems become larger and more complex. However, these open sources are
often subject to information overload. It is therefore useful to apply machine
learning models that condense the amount of information to what is necessary.
Yet, previous studies and applications have shown that existing classifiers are
not able to extract specific information about emerging cybersecurity events
due to their low generalization ability. Therefore, we propose a system to
overcome this problem by training a new classifier for each new incident. Since
this requires a lot of labelled data using standard training methods, we
combine three different low-data regime techniques - transfer learning, data
augmentation, and few-shot learning - to train a high-quality classifier from
very few labelled instances. We evaluated our approach using a novel dataset
derived from the Microsoft Exchange Server data breach of 2021 which was
labelled by three experts. Our findings reveal an increase in F1 score of more
than 21 points compared to standard training methods and more than 18 points
compared to a state-of-the-art method in few-shot learning. Furthermore, the
classifier trained with this method and 32 instances is only less than 5 F1
score points worse than a classifier trained with 1800 instances.
- Abstract(参考訳): オープンソースからサイバー脅威情報を集めることは、システムがより大きく複雑になるにつれて、高いレベルのセキュリティを維持し、達成するためにますます重要になっている。
しかし、これらのオープンソースはしばしば情報過負荷にさらされる。
したがって、必要な情報に情報を凝縮する機械学習モデルを適用することは有用である。
しかし、以前の研究や応用により、既存の分類器は、一般化能力の低いため、新興のサイバーセキュリティイベントに関する特定の情報を抽出できないことが示されている。
そこで本稿では,新たなインシデント毎に新たな分類器をトレーニングすることで,この問題を克服するシステムを提案する。
標準のトレーニング手法を使って、多くのラベル付きデータを必要とするため、3つの異なる低データレジームテクニック(転送学習、データ拡張、少数ショット学習)を組み合わせて、非常に少ないラベル付きインスタンスから高品質の分類器をトレーニングします。
2021年のMicrosoft Exchange Serverデータ漏洩から得られた,3人の専門家による新たなデータセットを用いて,我々のアプローチを評価した。
その結果,F1スコアは標準訓練法と比較して21ポイント以上増加し,18ポイント以上増加していた。
さらに、この方法で訓練された分類器と32のインスタンスは、1800のインスタンスで訓練された分類器よりも5f1以下のスコアである。
関連論文リスト
- Enhancing Visual Continual Learning with Language-Guided Supervision [76.38481740848434]
継続的な学習は、モデルが以前獲得した知識を忘れずに新しいタスクを学習できるようにすることを目的としている。
ワンホットラベルが伝達する少ない意味情報は,タスク間の効果的な知識伝達を妨げている,と我々は主張する。
具体的には, PLM を用いて各クラスのセマンティックターゲットを生成し, 凍結し, 監視信号として機能する。
論文 参考訳(メタデータ) (2024-03-24T12:41:58Z) - Text generation for dataset augmentation in security classification
tasks [55.70844429868403]
本研究では、複数のセキュリティ関連テキスト分類タスクにおいて、このデータギャップを埋めるための自然言語テキストジェネレータの適用性を評価する。
我々は,GPT-3データ拡張戦略において,既知の正のクラスサンプルに厳しい制約がある状況において,大きなメリットを見出した。
論文 参考訳(メタデータ) (2023-10-22T22:25:14Z) - Few-shot Weakly-supervised Cybersecurity Anomaly Detection [1.179179628317559]
本稿では,既存の弱教師付きディープラーニング異常検出フレームワークの強化を提案する。
このフレームワークには、データ拡張、表現学習、順序回帰が含まれている。
そして、3つのベンチマークデータセット上で実装したフレームワークの性能を評価した。
論文 参考訳(メタデータ) (2023-04-15T04:37:54Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Mutual Information Learned Classifiers: an Information-theoretic
Viewpoint of Training Deep Learning Classification Systems [9.660129425150926]
既存のクロスエントロピー損失最小化問題は,基礎となるデータ分布のラベル条件エントロピーを本質的に学習することを示す。
ラベルと入力の相互情報を学習することで、ディープニューラルネットワーク分類器を訓練する相互情報学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-21T01:06:30Z) - Deep invariant networks with differentiable augmentation layers [87.22033101185201]
データ拡張ポリシーの学習方法は、保持データを必要とし、二段階最適化の問題に基づいている。
我々のアプローチは、現代の自動データ拡張技術よりも訓練が簡単で高速であることを示す。
論文 参考訳(メタデータ) (2022-02-04T14:12:31Z) - Long-tail Recognition via Compositional Knowledge Transfer [60.03764547406601]
末尾クラスの少数ショット問題に対処する長尾認識のための新しい戦略を導入する。
我々の目標は、情報に富んだ共通クラスから得られた知識を、意味的に類似しているがデータに富む稀なクラスに伝達することである。
実験結果から,本手法は稀なクラスにおいて,堅牢な共通クラス性能を維持しつつ,大幅な性能向上を達成できることが示唆された。
論文 参考訳(メタデータ) (2021-12-13T15:48:59Z) - Subspace Regularizers for Few-Shot Class Incremental Learning [26.372024890126408]
既存のクラスの重みに代表される部分空間に近づき、新しいクラスに対する重みベクトルを奨励する、新しい部分空間正規化スキームの族を示す。
この結果から,クラス表現の幾何学的正則化は連続学習に有効なツールであることが示唆された。
論文 参考訳(メタデータ) (2021-10-13T22:19:53Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - Few-Shot Incremental Learning with Continually Evolved Classifiers [46.278573301326276]
Few-shot Class-Incremental Learning(FSCIL)は、いくつかのデータポイントから新しい概念を継続的に学習できる機械学習アルゴリズムの設計を目指している。
難点は、新しいクラスからの限られたデータが、重大な過度な問題を引き起こすだけでなく、破滅的な忘れの問題も悪化させることにある。
我々は,適応のための分類器間のコンテキスト情報を伝達するグラフモデルを用いた連続進化型cif(cec)を提案する。
論文 参考訳(メタデータ) (2021-04-07T10:54:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。