論文の概要: SoK: The Impact of Unlabelled Data in Cyberthreat Detection
- arxiv url: http://arxiv.org/abs/2205.08944v1
- Date: Wed, 18 May 2022 14:18:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-19 15:28:49.699232
- Title: SoK: The Impact of Unlabelled Data in Cyberthreat Detection
- Title(参考訳): SoK:サイバー脅威検出における不正データの影響
- Authors: Giovanni Apruzzese, Pavel Laskov, Aliya Tastemirova
- Abstract要約: 本稿では,サイバースリート検出(CTD)のための半教師あり学習(SsL)に関する既存の研究の体系化を目的とした。
我々は様々なCTDタスクにおけるラベル付けのコストを分析し、この文脈でSsLの形式的なコストモデルを開発する。
我々はSsL法の評価のための一連の要件を定式化し、非競合データの寄与を解明する。
- 参考スコア(独自算出の注目度): 1.6758573326215689
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Machine learning (ML) has become an important paradigm for cyberthreat
detection (CTD) in the recent years. A substantial research effort has been
invested in the development of specialized algorithms for CTD tasks. From the
operational perspective, however, the progress of ML-based CTD is hindered by
the difficulty in obtaining the large sets of labelled data to train ML
detectors. A potential solution to this problem are semisupervised learning
(SsL) methods, which combine small labelled datasets with large amounts of
unlabelled data.
This paper is aimed at systematization of existing work on SsL for CTD and,
in particular, on understanding the utility of unlabelled data in such systems.
To this end, we analyze the cost of labelling in various CTD tasks and develop
a formal cost model for SsL in this context. Building on this foundation, we
formalize a set of requirements for evaluation of SsL methods, which elucidates
the contribution of unlabelled data. We review the state-of-the-art and observe
that no previous work meets such requirements. To address this problem, we
propose a framework for assessing the benefits of unlabelled data in SsL. We
showcase an application of this framework by performing the first benchmark
evaluation that highlights the tradeoffs of 9 existing SsL methods on 9 public
datasets. Our findings verify that, in some cases, unlabelled data provides a
small, but statistically significant, performance gain. This paper highlights
that SsL in CTD has a lot of room for improvement, which should stimulate
future research in this field.
- Abstract(参考訳): 近年,機械学習(ML)はサイバー脅威検出(CTD)の重要なパラダイムとなっている。
ctdタスクのための特別なアルゴリズムの開発にかなりの研究が費やされてきた。
しかし, mlに基づくctdの進歩は, ml検出器を訓練するためのラベル付きデータの大量集合を得ることの難しさによって妨げられている。
この問題の潜在的な解決策は、小さなラベル付きデータセットと大量の未ラベルデータを組み合わせた半教師付き学習(SsL)法である。
本稿では,ctdのためのsslに関する既存の作業の体系化,特に,そのようなシステムにおけるラベルなしデータの有用性の理解を目的としている。
そこで我々は,様々なCTDタスクにおけるラベル付けのコストを分析し,SsLの形式的コストモデルを開発する。
本研究では,SsL法の評価のための一連の要件を定式化し,非競合データの寄与を解明する。
我々は、現状をレビューし、以前の作業がそのような要件を満たしていないことを観察する。
この問題に対処するため,SsLにおける非ラベルデータの有効性を評価するためのフレームワークを提案する。
我々は、9つの公開データセット上の9つの既存のSsLメソッドのトレードオフを強調する最初のベンチマーク評価を実行することで、このフレームワークの応用を紹介する。
以上の結果から,非ラベルデータによっては小さいが統計的に有意な性能向上が得られることが確認された。
本稿では,CTDのSsLには改善の余地が多数あり,今後の研究の促進が期待できることを示す。
関連論文リスト
- Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data [54.934578742209716]
現実世界のNLPアプリケーションでは、Large Language Models (LLMs) は巨大なデータセットの広範なトレーニングのために、有望なソリューションを提供する。
LLKDは、教師と学生の両方の信号を組み込んだ適応的なサンプル選択法である。
総合的な実験により,LLKDは高いデータ効率で,様々なデータセットで優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-11-12T18:57:59Z) - A Survey of the Self Supervised Learning Mechanisms for Vision Transformers [5.152455218955949]
視覚タスクにおける自己教師あり学習(SSL)の適用は注目されている。
SSL手法を体系的に分類する包括的分類法を開発した。
SSLの背後にあるモチベーションについて議論し、人気のある事前トレーニングタスクをレビューし、この分野の課題と進歩を強調します。
論文 参考訳(メタデータ) (2024-08-30T07:38:28Z) - How Much Data are Enough? Investigating Dataset Requirements for Patch-Based Brain MRI Segmentation Tasks [74.21484375019334]
ディープニューラルネットワークを確実にトレーニングするには、大規模なデータセットへのアクセスが必要である。
モデル開発に関連する時間的・経済的コストを緩和するためには,満足度の高いモデルをトレーニングするために必要なデータの量を明確に理解することが重要である。
本稿では,パッチベースのセグメンテーションネットワークのトレーニングに必要なアノテートデータの量を推定するための戦略的枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-04T13:55:06Z) - Integrating Large Language Models in Causal Discovery: A Statistical Causal Approach [4.587032475324664]
本稿では,大言語モデル(LLM)を用いたSCDと知識に基づく因果推論(KBCI)を合成する,因果推論の新しい手法を提案する。
LLM-KBCI と LLM-KBCI を併用した SCD の結果は, 先行知識のない SCD の結果よりも, 基礎的真理に近づいたことが明らかとなった。
医療などの重要な領域にまたがる本提案手法の実用化に向けて, 限界, 臨界誤差のリスク, LLMに関する技術改善の期待, 結果のエキスパートチェックの現実的な統合などについても, 徹底的に検討する。
論文 参考訳(メタデータ) (2024-02-02T14:43:19Z) - Large Language Models as Data Preprocessors [9.99065004972981]
大規模言語モデル (LLM) は人工知能において大きな進歩を遂げている。
本研究では、データマイニングおよび分析アプリケーションにおいて重要な段階である、データ前処理におけるその可能性について検討する。
我々は,最先端のプロンプトエンジニアリング技術を統合したデータ前処理のためのLLMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T23:28:43Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z) - Complementing Semi-Supervised Learning with Uncertainty Quantification [6.612035830987296]
そこで本研究では,アレータ性およびてんかん性不確実性定量化に依存する,教師なし不確実性認識の新たな目的を提案する。
CIFAR-100やMini-ImageNetのような複雑なデータセットでは,結果が最先端の成果よりも優れています。
論文 参考訳(メタデータ) (2022-07-22T00:15:02Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - Robust Deep Semi-Supervised Learning: A Brief Introduction [63.09703308309176]
半教師付き学習(SSL)は、ラベルが不十分なときにラベル付きデータを活用することにより、学習性能を向上させることを目的としている。
ディープモデルによるSSLは、標準ベンチマークタスクで成功したことが証明されている。
しかし、それらは現実世界のアプリケーションにおける様々な堅牢性に対する脅威に対して依然として脆弱である。
論文 参考訳(メタデータ) (2022-02-12T04:16:41Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。