論文の概要: Empirical Evaluation of SMOTE in Android Malware Detection with Machine Learning: Challenges and Performance in CICMalDroid 2020
- arxiv url: http://arxiv.org/abs/2602.08744v1
- Date: Mon, 09 Feb 2026 14:47:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.305094
- Title: Empirical Evaluation of SMOTE in Android Malware Detection with Machine Learning: Challenges and Performance in CICMalDroid 2020
- Title(参考訳): 機械学習によるAndroidマルウェア検出におけるSMOTEの実証評価:CICMalDroid 2020における課題と性能
- Authors: Diego Ferreira Duarte, Andre Augusto Bortoli,
- Abstract要約: この作業は、動的実行特性から悪意のあるコードを検出する機械学習アルゴリズムをテストする。
テストされた構成の75%では、SMOTEの適用によってパフォーマンスが低下するか、限界しか改善されなかった。
XGBoostやRandom Forestのような木ベースのアルゴリズムは、常に他のアルゴリズムよりも優れており、94%以上の重み付けリコールを達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Malware, malicious software designed to damage computer systems and perpetrate scams, is proliferating at an alarming rate, with thousands of new threats emerging daily. Android devices, prevalent in smartphones, smartwatches, tablets, and IoTs, represent a vast attack surface, making malware detection crucial. Although advanced analysis techniques exist, Machine Learning (ML) emerges as a promising tool to automate and accelerate the discovery of these threats. This work tests ML algorithms in detecting malicious code from dynamic execution characteristics. For this purpose, the CICMalDroid2020 dataset, composed of dynamically obtained Android malware behavior samples, was used with the algorithms XGBoost, Naıve Bayes (NB), Support Vector Classifier (SVC), and Random Forest (RF). The study focused on empirically evaluating the impact of the SMOTE technique, used to mitigate class imbalance in the data, on the performance of these models. The results indicate that, in 75% of the tested configurations, the application of SMOTE led to performance degradation or only marginal improvements, with an average loss of 6.14 percentage points. Tree-based algorithms, such as XGBoost and Random Forest, consistently outperformed the others, achieving weighted recall above 94%. It is inferred that SMOTE, although widely used, did not prove beneficial for Android malware detection in the CICMalDroid2020 dataset, possibly due to the complexity and sparsity of dynamic characteristics or the nature of malicious relationships. This work highlights the robustness of tree-ensemble models, such as XGBoost, and suggests that algorithmic data balancing approaches may be more effective than generating synthetic instances in certain cybersecurity scenarios
- Abstract(参考訳): マルウェアはコンピュータシステムにダメージを与え、詐欺を犯すよう設計された悪質なソフトウェアで、毎日何千もの新たな脅威が出現している。
スマートフォン、スマートウォッチ、タブレット、IoTで広く使われているAndroidデバイスは、大規模な攻撃面であり、マルウェア検出が不可欠である。
高度な分析技術はあるが、機械学習(ML)は、これらの脅威の発見を自動化し、加速するための有望なツールとして現れている。
この研究は、動的実行特性から悪意のあるコードを検出するためのMLアルゴリズムをテストする。
この目的のために、動的に取得されたAndroidマルウェアの挙動サンプルからなるCICMalDroid2020データセットが、アルゴリズムXGBoost、Naıve Bayes(NB)、サポートベクトル分類器(SVC)、ランダムフォレスト(RF)と共に使用された。
本研究は,SMOTE手法がデータ内のクラス不均衡を軽減し,それらのモデルの性能に与える影響を実証的に評価することに焦点を当てた。
その結果、テストされた構成の75%において、SMOTEの適用はパフォーマンスの低下または限界改善につながり、平均6.14ポイントの損失が得られた。
XGBoostやRandom Forestのような木ベースのアルゴリズムは、常に他のアルゴリズムよりも優れており、94%以上の重み付けリコールを達成した。
SMOTEは広く使われているが、CICMalDroid2020データセットにおけるAndroidのマルウェア検出には有益ではないと推定されている。
この研究は、XGBoostのようなツリーアンサンブルモデルの堅牢性を強調し、特定のサイバーセキュリティシナリオで合成インスタンスを生成するよりもアルゴリズム的なデータバランシングアプローチの方が効果的であることを示唆している。
関連論文リスト
- Synthetic Data: AI's New Weapon Against Android Malware [0.0]
攻撃者は人工知能を使って、従来の検出技術を回避できる高度なマルウェアのバリエーションを作成している。
MalSynGenは、条件付き生成逆数ネットワーク(cGAN)を使用して合成データを生成する、Malware Synthetic Data Generation方法論である。
このデータは,実世界のデータの統計特性を保存し,Androidマルウェア分類器の性能を向上させる。
論文 参考訳(メタデータ) (2025-11-24T19:27:58Z) - RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - Imbalanced malware classification: an approach based on dynamic classifier selection [0.0]
マルウェア検出における重要な課題は、ほとんどのアプリケーションが良心的であり、脅威を呈するわずかな部分しか存在しないデータセットの不均衡である。
本研究は,Androidアプリケーションにおけるマルウェア検出のための各種機械学習戦略を評価することにより,マルウェア検出におけるクラス不均衡の問題に対処する。
論文 参考訳(メタデータ) (2025-03-30T19:12:16Z) - CorrNetDroid: Android Malware Detector leveraging a Correlation-based Feature Selection for Network Traffic features [2.9069289358935073]
本研究では,ネットワークトラフィックフローで動作する動的解析ベースのAndroidマルウェア検出システムであるCorrNetDroidを提案する。
多くのトラフィック機能は、通常のデータセットとマルウェアのデータセットに重複する範囲を示す。
本モデルでは,2つのネットワークトラフィック機能のみを考慮すると,Androidのマルウェアを99.50%の精度で検出しながら,機能セットを効果的に削減する。
論文 参考訳(メタデータ) (2025-03-03T10:52:34Z) - MASKDROID: Robust Android Malware Detection with Masked Graph Representations [56.09270390096083]
マルウェアを識別する強力な識別能力を持つ強力な検出器MASKDROIDを提案する。
我々は、グラフニューラルネットワークベースのフレームワークにマスキング機構を導入し、MASKDROIDに入力グラフ全体の復元を強制する。
この戦略により、モデルは悪意のあるセマンティクスを理解し、より安定した表現を学習し、敵攻撃に対する堅牢性を高めることができる。
論文 参考訳(メタデータ) (2024-09-29T07:22:47Z) - Prompt Engineering-assisted Malware Dynamic Analysis Using GPT-4 [45.935748395725206]
GPT-4を用いた即時エンジニアリング支援型マルウェア動的解析手法を提案する。
この方法では、APIシーケンス内の各API呼び出しに対する説明テキストを作成するために、GPT-4が使用される。
BERTはテキストの表現を得るために使われ、そこからAPIシーケンスの表現を導出します。
論文 参考訳(メタデータ) (2023-12-13T17:39:44Z) - DRSM: De-Randomized Smoothing on Malware Classifier Providing Certified
Robustness [58.23214712926585]
我々は,マルウェア検出領域の非ランダム化スムース化技術を再設計し,DRSM(De-Randomized Smoothed MalConv)を開発した。
具体的には,実行可能ファイルの局所構造を最大に保ちながら,逆数バイトの影響を確実に抑制するウィンドウアブレーション方式を提案する。
私たちは、マルウェア実行ファイルの静的検出という領域で、認証された堅牢性を提供する最初の人です。
論文 参考訳(メタデータ) (2023-03-20T17:25:22Z) - OOG- Optuna Optimized GAN Sampling Technique for Tabular Imbalanced
Malware Data [0.0]
本研究では,GAN(Generative Adversarial Network)サンプリング技術を用いて,新たなマルウェアサンプルを生成する。
本研究では,Optuna Optimized GAN(OOG)法のアーキテクチャを98.06%,99.0%,97.23%,98.04%の精度,精度,リコール,f1のスコアとともに示す。
論文 参考訳(メタデータ) (2022-11-25T16:59:30Z) - Towards a Fair Comparison and Realistic Design and Evaluation Framework
of Android Malware Detectors [63.75363908696257]
一般的な評価フレームワークを用いて,Androidのマルウェア検出に関する10の研究成果を分析した。
データセットの作成やデザイナの設計に考慮しない場合、トレーニングされたMLモデルに大きく影響する5つの要因を特定します。
その結果,MLに基づく検出器は楽観的に評価され,良好な結果が得られた。
論文 参考訳(メタデータ) (2022-05-25T08:28:08Z) - Bayesian Optimization with Machine Learning Algorithms Towards Anomaly
Detection [66.05992706105224]
本稿では,ベイズ最適化手法を用いた効果的な異常検出フレームワークを提案する。
ISCX 2012データセットを用いて検討したアルゴリズムの性能を評価する。
実験結果から, 精度, 精度, 低コストアラームレート, リコールの観点から, 提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-08-05T19:29:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。