論文の概要: Machine Learning for Detecting Data Exfiltration: A Review
- arxiv url: http://arxiv.org/abs/2012.09344v2
- Date: Sun, 21 Mar 2021 23:23:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 00:36:15.637608
- Title: Machine Learning for Detecting Data Exfiltration: A Review
- Title(参考訳): データ抽出検出のための機械学習: レビュー
- Authors: Bushra Sabir, Faheem Ullah, M. Ali Babar and Raj Gaire
- Abstract要約: サイバーセキュリティ、機械学習(ML)、ソフトウェアエンジニアリング(SE)の交差点における研究は、最近、高度なデータ流出攻撃を検出するための対策を提案している。
本稿では,MLに基づくデータ抽出対策を体系的に検討し,機械学習アプローチ,特徴工学的手法,評価データセット,これらの対策に用いられるパフォーマンス指標を識別・分類することを目的とする。
- 参考スコア(独自算出の注目度): 1.949912057689623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Context: Research at the intersection of cybersecurity, Machine Learning
(ML), and Software Engineering (SE) has recently taken significant steps in
proposing countermeasures for detecting sophisticated data exfiltration
attacks. It is important to systematically review and synthesize the ML-based
data exfiltration countermeasures for building a body of knowledge on this
important topic. Objective: This paper aims at systematically reviewing
ML-based data exfiltration countermeasures to identify and classify ML
approaches, feature engineering techniques, evaluation datasets, and
performance metrics used for these countermeasures. This review also aims at
identifying gaps in research on ML-based data exfiltration countermeasures.
Method: We used a Systematic Literature Review (SLR) method to select and
review {92} papers. Results: The review has enabled us to (a) classify the ML
approaches used in the countermeasures into data-driven, and behaviour-driven
approaches, (b) categorize features into six types: behavioural, content-based,
statistical, syntactical, spatial and temporal, (c) classify the evaluation
datasets into simulated, synthesized, and real datasets and (d) identify 11
performance measures used by these studies. Conclusion: We conclude that: (i)
the integration of data-driven and behaviour-driven approaches should be
explored; (ii) There is a need of developing high quality and large size
evaluation datasets; (iii) Incremental ML model training should be incorporated
in countermeasures; (iv) resilience to adversarial learning should be
considered and explored during the development of countermeasures to avoid
poisoning attacks; and (v) the use of automated feature engineering should be
encouraged for efficiently detecting data exfiltration attacks.
- Abstract(参考訳): コンテキスト: サイバーセキュリティ、機械学習(ML)、ソフトウェアエンジニアリング(SE)の交差点での研究は、最近、高度なデータ流出攻撃を検出するための対策を提案している。
この重要なトピックに関する知識の体系化のためのMLベースのデータ抽出対策を体系的にレビューし、合成することが重要である。
目的: 本論文は,ML のアプローチ,特徴工学的手法,評価データセット,これらの対策に用いられるパフォーマンス指標を識別・分類するために,ML ベースのデータ抽出対策を体系的にレビューすることを目的とする。
また,MLに基づくデータ抽出対策の研究におけるギャップの特定も目的とする。
方法: 体系的文献レビュー(SLR)法を用いて, {92} 論文の選択とレビューを行った。
結果: a) 対策に使用されるmlアプローチをデータ駆動型, 行動駆動型, b) 特徴を行動型, コンテンツベース, 統計型, 合成型, 空間型, 時間型に分類し, (c) 評価データセットをシミュレーション, 合成, 実データセットに分類し, (d) これらの研究で使用されている11の性能指標を特定した。
Conclusion: We conclude that: (i) the integration of data-driven and behaviour-driven approaches should be explored; (ii) There is a need of developing high quality and large size evaluation datasets; (iii) Incremental ML model training should be incorporated in countermeasures; (iv) resilience to adversarial learning should be considered and explored during the development of countermeasures to avoid poisoning attacks; and (v) the use of automated feature engineering should be encouraged for efficiently detecting data exfiltration attacks.
関連論文リスト
- Impact of Missing Values in Machine Learning: A Comprehensive Analysis [0.0]
本稿では,機械学習(ML)モデルにおける欠落値の影響について検討する。
分析では、バイアス付き推論、予測能力の低下、計算負荷の増大など、欠落した値による課題に焦点を当てた。
この研究は、欠落した値に対処する実践的な意味を説明するためにケーススタディと実例を用いている。
論文 参考訳(メタデータ) (2024-10-10T18:31:44Z) - Detecting Training Data of Large Language Models via Expectation Maximization [62.28028046993391]
メンバーシップ推論攻撃(MIA)は、特定のインスタンスがターゲットモデルのトレーニングデータの一部であるかどうかを判断することを目的としている。
大規模言語モデル(LLM)にMIAを適用することは、事前学習データの大規模化と、会員シップのあいまいさによって、ユニークな課題をもたらす。
EM-MIAは,予測最大化アルゴリズムを用いて,メンバーシップスコアとプレフィックススコアを反復的に洗練するLLMの新しいMIA手法である。
論文 参考訳(メタデータ) (2024-10-10T03:31:16Z) - Probing Language Models for Pre-training Data Detection [11.37731401086372]
本稿では,モデルの内部アクティベーションを調べることで,事前学習データ検出のための探索手法を提案する。
我々の手法はシンプルで効果的であり、より信頼性の高い事前学習データ検出につながる。
論文 参考訳(メタデータ) (2024-06-03T13:58:04Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Towards Better Modeling with Missing Data: A Contrastive Learning-based
Visual Analytics Perspective [7.577040836988683]
データ不足は機械学習(ML)モデリングの課題となる可能性がある。
現在のアプローチは、特徴計算とラベル予測に分類される。
本研究は、観測データに欠落した値でモデル化するコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T13:16:24Z) - Mitigating ML Model Decay in Continuous Integration with Data Drift
Detection: An Empirical Study [7.394099294390271]
本研究では,CI環境におけるTCP用MLモデルのリトレーニングポイントを自動的に検出するデータドリフト検出手法の性能について検討する。
我々はHellinger距離を用いて入力データの値と分布の変化を同定し、これらの変化をMLモデルの再学習点として利用した。
Hellinger distance-based methodの実験により,再学習点の検出と関連するコストの低減に効果と効率が示された。
論文 参考訳(メタデータ) (2023-05-22T05:55:23Z) - Detection and Evaluation of Clusters within Sequential Data [58.720142291102135]
Block Markov Chainsのクラスタリングアルゴリズムは理論的最適性を保証する。
特に、私たちのシーケンシャルデータは、ヒトのDNA、テキスト、動物運動データ、金融市場から派生しています。
ブロックマルコフ連鎖モデルの仮定は、実際に探索データ解析において有意義な洞察を得られることが判明した。
論文 参考訳(メタデータ) (2022-10-04T15:22:39Z) - Robustness Evaluation of Deep Unsupervised Learning Algorithms for
Intrusion Detection Systems [0.0]
本稿では, 汚染データに対する侵入検出のための6つの最新のディープラーニングアルゴリズムの堅牢性を評価する。
本研究で用いた最先端のアルゴリズムは,データ汚染に敏感であり,データ摂動に対する自己防衛の重要性を明らかにしている。
論文 参考訳(メタデータ) (2022-06-25T02:28:39Z) - Practical Machine Learning Safety: A Survey and Primer [81.73857913779534]
自動運転車のような安全クリティカルなアプリケーションにおける機械学習アルゴリズムのオープンワールド展開は、さまざまなML脆弱性に対処する必要がある。
一般化エラーを低減し、ドメイン適応を実現し、外乱例や敵攻撃を検出するための新しいモデルと訓練技術。
我々の組織は、MLアルゴリズムの信頼性を異なる側面から向上するために、最先端のML技術を安全戦略にマッピングする。
論文 参考訳(メタデータ) (2021-06-09T05:56:42Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Estimating Structural Target Functions using Machine Learning and
Influence Functions [103.47897241856603]
統計モデルから特定可能な関数として生じる対象関数の統計的機械学習のための新しい枠組みを提案する。
このフレームワークは問題とモデルに依存しないものであり、応用統計学における幅広い対象パラメータを推定するのに使用できる。
我々は、部分的に観測されていない情報を持つランダム/二重ロバストな問題において、いわゆる粗大化に特に焦点をあてた。
論文 参考訳(メタデータ) (2020-08-14T16:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。