論文の概要: SoK: The Impact of Unlabelled Data in Cyberthreat Detection
- arxiv url: http://arxiv.org/abs/2205.08944v1
- Date: Wed, 18 May 2022 14:18:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-19 15:28:49.699232
- Title: SoK: The Impact of Unlabelled Data in Cyberthreat Detection
- Title(参考訳): SoK:サイバー脅威検出における不正データの影響
- Authors: Giovanni Apruzzese, Pavel Laskov, Aliya Tastemirova
- Abstract要約: 本稿では,サイバースリート検出(CTD)のための半教師あり学習(SsL)に関する既存の研究の体系化を目的とした。
我々は様々なCTDタスクにおけるラベル付けのコストを分析し、この文脈でSsLの形式的なコストモデルを開発する。
我々はSsL法の評価のための一連の要件を定式化し、非競合データの寄与を解明する。
- 参考スコア(独自算出の注目度): 1.6758573326215689
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Machine learning (ML) has become an important paradigm for cyberthreat
detection (CTD) in the recent years. A substantial research effort has been
invested in the development of specialized algorithms for CTD tasks. From the
operational perspective, however, the progress of ML-based CTD is hindered by
the difficulty in obtaining the large sets of labelled data to train ML
detectors. A potential solution to this problem are semisupervised learning
(SsL) methods, which combine small labelled datasets with large amounts of
unlabelled data.
This paper is aimed at systematization of existing work on SsL for CTD and,
in particular, on understanding the utility of unlabelled data in such systems.
To this end, we analyze the cost of labelling in various CTD tasks and develop
a formal cost model for SsL in this context. Building on this foundation, we
formalize a set of requirements for evaluation of SsL methods, which elucidates
the contribution of unlabelled data. We review the state-of-the-art and observe
that no previous work meets such requirements. To address this problem, we
propose a framework for assessing the benefits of unlabelled data in SsL. We
showcase an application of this framework by performing the first benchmark
evaluation that highlights the tradeoffs of 9 existing SsL methods on 9 public
datasets. Our findings verify that, in some cases, unlabelled data provides a
small, but statistically significant, performance gain. This paper highlights
that SsL in CTD has a lot of room for improvement, which should stimulate
future research in this field.
- Abstract(参考訳): 近年,機械学習(ML)はサイバー脅威検出(CTD)の重要なパラダイムとなっている。
ctdタスクのための特別なアルゴリズムの開発にかなりの研究が費やされてきた。
しかし, mlに基づくctdの進歩は, ml検出器を訓練するためのラベル付きデータの大量集合を得ることの難しさによって妨げられている。
この問題の潜在的な解決策は、小さなラベル付きデータセットと大量の未ラベルデータを組み合わせた半教師付き学習(SsL)法である。
本稿では,ctdのためのsslに関する既存の作業の体系化,特に,そのようなシステムにおけるラベルなしデータの有用性の理解を目的としている。
そこで我々は,様々なCTDタスクにおけるラベル付けのコストを分析し,SsLの形式的コストモデルを開発する。
本研究では,SsL法の評価のための一連の要件を定式化し,非競合データの寄与を解明する。
我々は、現状をレビューし、以前の作業がそのような要件を満たしていないことを観察する。
この問題に対処するため,SsLにおける非ラベルデータの有効性を評価するためのフレームワークを提案する。
我々は、9つの公開データセット上の9つの既存のSsLメソッドのトレードオフを強調する最初のベンチマーク評価を実行することで、このフレームワークの応用を紹介する。
以上の結果から,非ラベルデータによっては小さいが統計的に有意な性能向上が得られることが確認された。
本稿では,CTDのSsLには改善の余地が多数あり,今後の研究の促進が期待できることを示す。
関連論文リスト
- A Survey of the Self Supervised Learning Mechanisms for Vision Transformers [5.152455218955949]
視覚タスクにおける自己教師あり学習(SSL)の適用は注目されている。
SSL手法を体系的に分類する包括的分類法を開発した。
SSLの背後にあるモチベーションについて議論し、人気のある事前トレーニングタスクをレビューし、この分野の課題と進歩を強調します。
論文 参考訳(メタデータ) (2024-08-30T07:38:28Z) - How Much Data are Enough? Investigating Dataset Requirements for Patch-Based Brain MRI Segmentation Tasks [74.21484375019334]
ディープニューラルネットワークを確実にトレーニングするには、大規模なデータセットへのアクセスが必要である。
モデル開発に関連する時間的・経済的コストを緩和するためには,満足度の高いモデルをトレーニングするために必要なデータの量を明確に理解することが重要である。
本稿では,パッチベースのセグメンテーションネットワークのトレーニングに必要なアノテートデータの量を推定するための戦略的枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-04T13:55:06Z) - Large Language Models as Data Preprocessors [9.99065004972981]
大規模言語モデル (LLM) は人工知能において大きな進歩を遂げている。
本研究では、データマイニングおよび分析アプリケーションにおいて重要な段階である、データ前処理におけるその可能性について検討する。
我々は,最先端のプロンプトエンジニアリング技術を統合したデータ前処理のためのLLMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T23:28:43Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z) - Self-supervised Learning for Label-Efficient Sleep Stage Classification:
A Comprehensive Evaluation [13.895332825128076]
自己教師付き学習(SSL)パラダイムは、ラベル付きデータの不足を克服する最も成功したテクニックの1つとして輝いている。
本稿では,少数レーベル体制における既存のSSCモデルの性能向上のためのSSLの有効性を評価する。
ラベル付きデータのわずか5%で事前学習したSSCモデルを微調整することで、フルラベルによる教師付きトレーニングと競合する性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-10T09:01:17Z) - Complementing Semi-Supervised Learning with Uncertainty Quantification [6.612035830987296]
そこで本研究では,アレータ性およびてんかん性不確実性定量化に依存する,教師なし不確実性認識の新たな目的を提案する。
CIFAR-100やMini-ImageNetのような複雑なデータセットでは,結果が最先端の成果よりも優れています。
論文 参考訳(メタデータ) (2022-07-22T00:15:02Z) - Collaborative Intelligence Orchestration: Inconsistency-Based Fusion of
Semi-Supervised Learning and Active Learning [60.26659373318915]
アクティブラーニング(AL)と半教師付きラーニング(SSL)は2つの効果があるが、しばしば孤立している。
本稿では、SSL-ALの潜在的な優位性をさらに調査するために、革新的な一貫性に基づく仮想aDvErialアルゴリズムを提案する。
2つの実世界のケーススタディは、提案したデータサンプリングアルゴリズムの適用と展開の実践的な産業価値を可視化する。
論文 参考訳(メタデータ) (2022-06-07T13:28:43Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - Robust Deep Semi-Supervised Learning: A Brief Introduction [63.09703308309176]
半教師付き学習(SSL)は、ラベルが不十分なときにラベル付きデータを活用することにより、学習性能を向上させることを目的としている。
ディープモデルによるSSLは、標準ベンチマークタスクで成功したことが証明されている。
しかし、それらは現実世界のアプリケーションにおける様々な堅牢性に対する脅威に対して依然として脆弱である。
論文 参考訳(メタデータ) (2022-02-12T04:16:41Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。