論文の概要: SoK: The Impact of Unlabelled Data in Cyberthreat Detection
- arxiv url: http://arxiv.org/abs/2205.08944v1
- Date: Wed, 18 May 2022 14:18:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-19 15:28:49.699232
- Title: SoK: The Impact of Unlabelled Data in Cyberthreat Detection
- Title(参考訳): SoK:サイバー脅威検出における不正データの影響
- Authors: Giovanni Apruzzese, Pavel Laskov, Aliya Tastemirova
- Abstract要約: 本稿では,サイバースリート検出(CTD)のための半教師あり学習(SsL)に関する既存の研究の体系化を目的とした。
我々は様々なCTDタスクにおけるラベル付けのコストを分析し、この文脈でSsLの形式的なコストモデルを開発する。
我々はSsL法の評価のための一連の要件を定式化し、非競合データの寄与を解明する。
- 参考スコア(独自算出の注目度): 1.6758573326215689
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Machine learning (ML) has become an important paradigm for cyberthreat
detection (CTD) in the recent years. A substantial research effort has been
invested in the development of specialized algorithms for CTD tasks. From the
operational perspective, however, the progress of ML-based CTD is hindered by
the difficulty in obtaining the large sets of labelled data to train ML
detectors. A potential solution to this problem are semisupervised learning
(SsL) methods, which combine small labelled datasets with large amounts of
unlabelled data.
This paper is aimed at systematization of existing work on SsL for CTD and,
in particular, on understanding the utility of unlabelled data in such systems.
To this end, we analyze the cost of labelling in various CTD tasks and develop
a formal cost model for SsL in this context. Building on this foundation, we
formalize a set of requirements for evaluation of SsL methods, which elucidates
the contribution of unlabelled data. We review the state-of-the-art and observe
that no previous work meets such requirements. To address this problem, we
propose a framework for assessing the benefits of unlabelled data in SsL. We
showcase an application of this framework by performing the first benchmark
evaluation that highlights the tradeoffs of 9 existing SsL methods on 9 public
datasets. Our findings verify that, in some cases, unlabelled data provides a
small, but statistically significant, performance gain. This paper highlights
that SsL in CTD has a lot of room for improvement, which should stimulate
future research in this field.
- Abstract(参考訳): 近年,機械学習(ML)はサイバー脅威検出(CTD)の重要なパラダイムとなっている。
ctdタスクのための特別なアルゴリズムの開発にかなりの研究が費やされてきた。
しかし, mlに基づくctdの進歩は, ml検出器を訓練するためのラベル付きデータの大量集合を得ることの難しさによって妨げられている。
この問題の潜在的な解決策は、小さなラベル付きデータセットと大量の未ラベルデータを組み合わせた半教師付き学習(SsL)法である。
本稿では,ctdのためのsslに関する既存の作業の体系化,特に,そのようなシステムにおけるラベルなしデータの有用性の理解を目的としている。
そこで我々は,様々なCTDタスクにおけるラベル付けのコストを分析し,SsLの形式的コストモデルを開発する。
本研究では,SsL法の評価のための一連の要件を定式化し,非競合データの寄与を解明する。
我々は、現状をレビューし、以前の作業がそのような要件を満たしていないことを観察する。
この問題に対処するため,SsLにおける非ラベルデータの有効性を評価するためのフレームワークを提案する。
我々は、9つの公開データセット上の9つの既存のSsLメソッドのトレードオフを強調する最初のベンチマーク評価を実行することで、このフレームワークの応用を紹介する。
以上の結果から,非ラベルデータによっては小さいが統計的に有意な性能向上が得られることが確認された。
本稿では,CTDのSsLには改善の余地が多数あり,今後の研究の促進が期待できることを示す。
関連論文リスト
- Large Language Models as Data Preprocessors [10.914067455923847]
OpenAIのGPTシリーズとMetaのLLaMAに代表されるLarge Language Models (LLMs)は、人工知能において大きな進歩を遂げている。
この研究は、LLMの応用を拡大し、データ前処理におけるその可能性を探る。
我々は,最先端のプロンプト技術を統合したデータ前処理のためのLLMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T23:28:43Z) - Few-shot Class-incremental Learning: A Survey [16.729567512584822]
FSCIL(Few-shot Class-Incremental Learning)は機械学習(ML)においてユニークな課題を提示する
本稿は、FSCILの総合的かつ体系的なレビューを提供することを目的としている。
論文 参考訳(メタデータ) (2023-08-13T13:01:21Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z) - Self-supervised Learning for Label-Efficient Sleep Stage Classification:
A Comprehensive Evaluation [13.895332825128076]
自己教師付き学習(SSL)パラダイムは、ラベル付きデータの不足を克服する最も成功したテクニックの1つとして輝いている。
本稿では,少数レーベル体制における既存のSSCモデルの性能向上のためのSSLの有効性を評価する。
ラベル付きデータのわずか5%で事前学習したSSCモデルを微調整することで、フルラベルによる教師付きトレーニングと競合する性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-10T09:01:17Z) - Complementing Semi-Supervised Learning with Uncertainty Quantification [6.612035830987296]
そこで本研究では,アレータ性およびてんかん性不確実性定量化に依存する,教師なし不確実性認識の新たな目的を提案する。
CIFAR-100やMini-ImageNetのような複雑なデータセットでは,結果が最先端の成果よりも優れています。
論文 参考訳(メタデータ) (2022-07-22T00:15:02Z) - Collaborative Intelligence Orchestration: Inconsistency-Based Fusion of
Semi-Supervised Learning and Active Learning [60.26659373318915]
アクティブラーニング(AL)と半教師付きラーニング(SSL)は2つの効果があるが、しばしば孤立している。
本稿では、SSL-ALの潜在的な優位性をさらに調査するために、革新的な一貫性に基づく仮想aDvErialアルゴリズムを提案する。
2つの実世界のケーススタディは、提案したデータサンプリングアルゴリズムの適用と展開の実践的な産業価値を可視化する。
論文 参考訳(メタデータ) (2022-06-07T13:28:43Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - Robust Deep Semi-Supervised Learning: A Brief Introduction [63.09703308309176]
半教師付き学習(SSL)は、ラベルが不十分なときにラベル付きデータを活用することにより、学習性能を向上させることを目的としている。
ディープモデルによるSSLは、標準ベンチマークタスクで成功したことが証明されている。
しかし、それらは現実世界のアプリケーションにおける様々な堅牢性に対する脅威に対して依然として脆弱である。
論文 参考訳(メタデータ) (2022-02-12T04:16:41Z) - Bridging the gap to real-world for network intrusion detection systems
with data-centric approach [1.4699455652461724]
本稿では、NIDS研究の現在の限界に対処するために、体系的なデータ中心のアプローチを提案する。
最新のネットワークトラフィックとアタックで構成されたNIDSデータセットを生成し、ラベリングプロセスは設計によって統合される。
論文 参考訳(メタデータ) (2021-10-25T04:50:12Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。