論文の概要: MLRan: A Behavioural Dataset for Ransomware Analysis and Detection
- arxiv url: http://arxiv.org/abs/2505.18613v1
- Date: Sat, 24 May 2025 09:22:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.547236
- Title: MLRan: A Behavioural Dataset for Ransomware Analysis and Detection
- Title(参考訳): MLRan:ランサムウェア分析と検出のための行動データセット
- Authors: Faithful Chiagoziem Onwuegbuche, Adelodun Olaoluwa, Anca Delia Jurcut, Liliana Pasquale,
- Abstract要約: MLRanは、64のランサムウェアファミリーに4,800以上のサンプルと、バランスの取れたグッドウェアサンプルからなる行動型ランサムウェアデータセットである。
サンプルは2006年から2024年にかけて、ロック、暗号、ランサムウェア・アズ・ア・サービス、モダンな4種類のランサムウェアを含む。
MLRanを用いた機械学習(ML)モデルのランサムウェア検出性能を評価した。
- 参考スコア(独自算出の注目度): 0.7706236363202722
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ransomware remains a critical threat to cybersecurity, yet publicly available datasets for training machine learning-based ransomware detection models are scarce and often have limited sample size, diversity, and reproducibility. In this paper, we introduce MLRan, a behavioural ransomware dataset, comprising over 4,800 samples across 64 ransomware families and a balanced set of goodware samples. The samples span from 2006 to 2024 and encompass the four major types of ransomware: locker, crypto, ransomware-as-a-service, and modern variants. We also propose guidelines (GUIDE-MLRan), inspired by previous work, for constructing high-quality behavioural ransomware datasets, which informed the curation of our dataset. We evaluated the ransomware detection performance of several machine learning (ML) models using MLRan. For this purpose, we performed feature selection by conducting mutual information filtering to reduce the initial 6.4 million features to 24,162, followed by recursive feature elimination, yielding 483 highly informative features. The ML models achieved an accuracy, precision and recall of up to 98.7%, 98.9%, 98.5%, respectively. Using SHAP and LIME, we identified critical indicators of malicious behaviour, including registry tampering, strings, and API misuse. The dataset and source code for feature extraction, selection, ML training, and evaluation are available publicly to support replicability and encourage future research, which can be found at https://github.com/faithfulco/mlran.
- Abstract(参考訳): ランサムウェアはサイバーセキュリティにとって重要な脅威であり続けているが、機械学習ベースのランサムウェア検出モデルをトレーニングするための公開データセットは乏しく、しばしばサンプルサイズ、多様性、再現性に制限がある。
本稿では,64のランサムウェアファミリーにまたがる4,800以上のサンプルと,バランスの取れたグッドウェアサンプルからなる行動型ランサムウェアデータセットであるMLRanを紹介する。
サンプルは2006年から2024年にかけて、ロック、暗号、ランサムウェア・アズ・ア・サービス、モダンな4種類のランサムウェアを含む。
また,従来の研究から着想を得たGUIDE-MLRan(GUIDE-MLRan)を提案する。
MLRanを用いた機械学習(ML)モデルのランサムウェア検出性能を評価した。
そこで我々は,初期6.4百万個の特徴を24,162個に減らし,さらに再帰的特徴除去を行い,483個の高い情報的特徴を得た。
MLモデルは、それぞれ98.7%、98.9%、98.5%の精度、精度、リコールを達成した。
SHAPとLIMEを使用して、レジストリの改ざん、文字列、APIの誤用など、悪意のある振る舞いを示す重要な指標を特定しました。
機能抽出、選択、MLトレーニング、評価のためのデータセットとソースコードが公開されており、複製性をサポートし、将来の研究を促進することができる。
関連論文リスト
- A Sysmon Incremental Learning System for Ransomware Analysis and Detection [1.495391051525033]
サイバー脅威、特にランサムウェア攻撃の増加に直面しているため、高度な検知と分析システムの必要性が高まっている。
これらの提案のほとんどは、新しいランサムウェアを検出するために、基礎となるモデルをスクラッチから更新する必要がある、非インクリメンタルな学習アプローチを活用している。
新たなランサムウェア株がモデルが更新されるまで検出されない可能性があるため、再トレーニング中に攻撃に対して脆弱なデータを残すため、このアプローチは問題となる。
本稿では,Sysmon Incremental Learning System for Analysis and Detection (SILRAD)を提案する。
論文 参考訳(メタデータ) (2025-01-02T06:22:58Z) - Zero-day attack and ransomware detection [0.0]
本研究では,UGRansomeデータセットを用いて,ゼロデイおよびランサムウェア攻撃検出のための機械学習モデルのトレーニングを行う。
この結果は、ランダムフォレスト(RFC)、XGBoost、Ensemble Methodsが精度、精度、リコール、F1スコアで完璧にスコアを得たことを示している。
論文 参考訳(メタデータ) (2024-08-08T02:23:42Z) - Small Effect Sizes in Malware Detection? Make Harder Train/Test Splits! [51.668411293817464]
業界関係者は、モデルが数億台のマシンにデプロイされているため、マルウェア検出精度の小さな改善に気を配っている。
学術研究はしばしば1万のサンプルの順序で公開データセットに制限される。
利用可能なサンプルのプールから難易度ベンチマークを生成するためのアプローチを考案する。
論文 参考訳(メタデータ) (2023-12-25T21:25:55Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - Unleashing Mask: Explore the Intrinsic Out-of-Distribution Detection
Capability [70.72426887518517]
Out-of-Distribution(OOD)検出は、機械学習モデルを現実世界のアプリケーションにデプロイする際に、セキュアAIの必須の側面である。
本稿では,IDデータを用いた学習モデルのOOD識別能力を復元する新しい手法であるUnleashing Maskを提案する。
本手法では, マスクを用いて記憶した非定型サンプルを抽出し, モデルを微調整するか, 導入したマスクでプルーする。
論文 参考訳(メタデータ) (2023-06-06T14:23:34Z) - Behavioural Reports of Multi-Stage Malware [3.64414368529873]
このデータセットは、Windows 10仮想マシンで実行される数千のマルウェアサンプルに対するAPI呼び出しシーケンスを提供する。
このデータセットの作成と拡張のチュートリアルと、このデータセットを使用してマルウェアを分類する方法を示すベンチマークが提供されている。
論文 参考訳(メタデータ) (2023-01-30T11:51:02Z) - Interpretable Machine Learning for Detection and Classification of
Ransomware Families Based on API Calls [5.340730281227837]
この研究は、ランサムウェアファミリーを検出し分類するために、異なるAPI呼び出しの周波数を利用する。
WebCrawlerは15種類のランサムウェアファミリーのWindows Portable Executable PEファイルの収集を自動化するために開発された。
Logistic Regressionは、ランサムウェアを9915の精度で対応する家族に効率的に分類することができる。
論文 参考訳(メタデータ) (2022-10-16T15:54:45Z) - MOVE: Effective and Harmless Ownership Verification via Embedded External Features [104.97541464349581]
本稿では,異なる種類のモデル盗難を同時に防ぐために,効果的かつ無害なモデル所有者認証(MOVE)を提案する。
我々は、疑わしいモデルがディフェンダー特定外部特徴の知識を含むかどうかを検証し、所有権検証を行う。
次に、メタ分類器をトレーニングして、モデルが被害者から盗まれたかどうかを判断します。
論文 参考訳(メタデータ) (2022-08-04T02:22:29Z) - Towards a Fair Comparison and Realistic Design and Evaluation Framework
of Android Malware Detectors [63.75363908696257]
一般的な評価フレームワークを用いて,Androidのマルウェア検出に関する10の研究成果を分析した。
データセットの作成やデザイナの設計に考慮しない場合、トレーニングされたMLモデルに大きく影響する5つの要因を特定します。
その結果,MLに基づく検出器は楽観的に評価され,良好な結果が得られた。
論文 参考訳(メタデータ) (2022-05-25T08:28:08Z) - Towards a Resilient Machine Learning Classifier -- a Case Study of
Ransomware Detection [5.560986338397972]
ランサムウェア(暗号ランサムウェアと呼ばれる)を検出するために機械学習(ML)分類器が作られた
ランサムウェアとファイル内容エントロピーのインプット/アウトプットアクティビティは,暗号ランサムウェアを検出するユニークな特徴であることがわかった。
精度と弾力性に加えて、信頼性は品質検知のもう一つの重要な基準である。
論文 参考訳(メタデータ) (2020-03-13T18:02:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。