論文の概要: Cluster Analysis and Concept Drift Detection in Malware
- arxiv url: http://arxiv.org/abs/2502.14135v1
- Date: Wed, 19 Feb 2025 22:42:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:27:46.167248
- Title: Cluster Analysis and Concept Drift Detection in Malware
- Title(参考訳): マルウェアのクラスタ解析とコンセプトドリフト検出
- Authors: Aniket Mishra, Mark Stamp,
- Abstract要約: 概念ドリフト(concept drift)とは、機械学習モデルの精度に影響を与えるデータの特性の漸進的または突然の変化を指す。
マルウェア領域におけるコンセプトドリフトを検出するためのクラスタリングに基づく手法を提案し,解析する。
- 参考スコア(独自算出の注目度): 1.3812010983144798
- License:
- Abstract: Concept drift refers to gradual or sudden changes in the properties of data that affect the accuracy of machine learning models. In this paper, we address the problem of concept drift detection in the malware domain. Specifically, we propose and analyze a clustering-based approach to detecting concept drift. Using a subset of the KronoDroid dataset, malware samples are partitioned into temporal batches and analyzed using MiniBatch $K$-Means clustering. The silhouette coefficient is used as a metric to identify points in time where concept drift has likely occurred. To verify our drift detection results, we train learning models under three realistic scenarios, which we refer to as static training, periodic retraining, and drift-aware retraining. In each scenario, we consider four supervised classifiers, namely, Multilayer Perceptron (MLP), Support Vector Machine (SVM), Random Forest, and XGBoost. Experimental results demonstrate that drift-aware retraining guided by silhouette coefficient thresholding achieves classification accuracy far superior to static models, and generally within 1% of periodic retraining, while also being far more efficient than periodic retraining. These results provide strong evidence that our clustering-based approach is effective at detecting concept drift, while also illustrating a highly practical and efficient fully automated approach to improved malware classification via concept drift detection.
- Abstract(参考訳): 概念ドリフト(concept drift)とは、機械学習モデルの精度に影響を与えるデータの特性の漸進的または突然の変化を指す。
本稿では,マルウェア領域におけるコンセプトドリフト検出の問題に対処する。
具体的には,クラスタリングに基づく概念ドリフト検出手法の提案と解析を行う。
KronoDroidデータセットのサブセットを使用して、マルウェアサンプルを時間バッチに分割し、MiniBatch $K$-Meansクラスタリングを使用して分析する。
シルエット係数は、概念の漂流が起こる可能性のある時間における点を特定する計量として用いられる。
ドリフト検出結果を検証するために,静的トレーニング,周期的リトレーニング,ドリフト認識リトレーニングという3つの現実シナリオ下で学習モデルを訓練する。
各シナリオでは、マルチレイヤパーセプトロン(MLP)、サポートベクトルマシン(SVM)、ランダムフォレスト(Random Forest)、XGBoost(XGBoost)の4つの教師付き分類器を検討する。
実験の結果,シルエット係数閾値によるドリフトアウェアリトレーニングは静的モデルよりもはるかに優れた分類精度を達成し,一般に周期的リトレーニングの1%以内であり,また周期的リトレーニングよりもはるかに効率的であることがわかった。
これらの結果は、クラスタリングに基づくアプローチが概念ドリフトの検出に有効であることを示すとともに、概念ドリフト検出によるマルウェア分類を改善するための、非常に実用的で効率的な完全自動化アプローチを示す。
関連論文リスト
- SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。
本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文 参考訳(メタデータ) (2024-07-23T20:34:23Z) - Revisiting Concept Drift in Windows Malware Detection: Adaptation to Real Drifted Malware with Minimal Samples [10.352741619176383]
本研究では,ドリフトマルウェアの検出と分類を行う新しい手法を提案する。
グラフニューラルネットワークと対向ドメイン適応を利用して、マルウェア制御フローグラフのドリフト不変性を学習する。
当社のアプローチは,公開ベンチマークや,セキュリティ企業によって毎日報告されている実世界のマルウェアデータベース上でのドリフトマルウェアの検出を大幅に改善する。
論文 参考訳(メタデータ) (2024-07-18T22:06:20Z) - Methods for Generating Drift in Text Streams [49.3179290313959]
コンセプトドリフトは、実世界のデータセットで頻繁に発生する現象であり、時間とともにデータ分布の変化に対応する。
本稿では,ラベル付きドリフトを用いたデータセット作成を容易にするための4つのテキストドリフト生成手法を提案する。
その結果、ドリフトの直後にすべてのメソッドのパフォーマンスが低下し、インクリメンタルなSVMは、以前のパフォーマンスレベルを実行し、回復するのに最も速いことを示している。
論文 参考訳(メタデータ) (2024-03-18T23:48:33Z) - MORPH: Towards Automated Concept Drift Adaptation for Malware Detection [0.7499722271664147]
コンセプトドリフトはマルウェア検出にとって重要な課題である。
自己学習は、コンセプトドリフトを緩和するための有望なアプローチとして現れています。
擬似ラベルに基づく効果的なドリフト適応法であるMORPHを提案する。
論文 参考訳(メタデータ) (2024-01-23T14:25:43Z) - Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z) - Uncovering Drift in Textual Data: An Unsupervised Method for Detecting
and Mitigating Drift in Machine Learning Models [9.035254826664273]
機械学習におけるドリフト(drift)とは、モデルが動作しているデータやコンテキストの統計的性質が時間とともに変化し、性能が低下する現象を指す。
提案手法では, 目標分布として生産データのサンプルを符号化し, モデルトレーニングデータを基準分布として符号化する。
また,ドリフトの根本原因である生産データのサブセットも同定する。
これらの高ドリフトサンプルを用いて再トレーニングしたモデルでは、オンライン顧客エクスペリエンスの品質指標のパフォーマンスが改善された。
論文 参考訳(メタデータ) (2023-09-07T16:45:42Z) - Adaptive Cross Batch Normalization for Metric Learning [75.91093210956116]
メトリクス学習はコンピュータビジョンの基本的な問題である。
蓄積した埋め込みが最新であることを保証することは、同様に重要であることを示す。
特に、蓄積した埋め込みと現在のトレーニングイテレーションにおける特徴埋め込みとの間の表現的ドリフトを回避する必要がある。
論文 参考訳(メタデータ) (2023-03-30T03:22:52Z) - Autoregressive based Drift Detection Method [0.0]
我々はADDMと呼ばれる自己回帰モデルに基づく新しい概念ドリフト検出手法を提案する。
以上の結果から,新しいドリフト検出法は最先端ドリフト検出法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-03-09T14:36:16Z) - Layer Pruning on Demand with Intermediate CTC [50.509073206630994]
我々はコネクショニスト時間分類(CTC)に基づくASRの訓練と刈り取り方法を提案する。
本稿では,Transformer-CTCモデルをオンデマンドで様々な深さでプルーニングできることを示し,GPU上でのリアルタイム係数を0.005から0.002に改善した。
論文 参考訳(メタデータ) (2021-06-17T02:40:18Z) - Churn Reduction via Distillation [54.5952282395487]
本研究は, 基礎モデルを教師として用いた蒸留によるトレーニングと, 予測的チャーンに対する明示的な制約によるトレーニングとの等価性を示す。
次に, 蒸留が近年の多くのベースラインに対する低チャーン訓練に有効であることを示す。
論文 参考訳(メタデータ) (2021-06-04T18:03:31Z) - DriftSurf: A Risk-competitive Learning Algorithm under Concept Drift [12.579800289829963]
ストリーミングデータから学ぶとき、概念ドリフト(concept drift)とも呼ばれるデータ分散の変化は、以前に学習したモデルが不正確なものになる可能性がある。
本研究では,ドリフト検出をより広範な安定状態/反応性状態プロセスに組み込むことにより,従来のドリフト検出に基づく手法を拡張する適応学習アルゴリズムを提案する。
このアルゴリズムはベースラーナーにおいて汎用的であり、様々な教師付き学習問題に適用できる。
論文 参考訳(メタデータ) (2020-03-13T23:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。