論文の概要: LAMDA: A Longitudinal Android Malware Benchmark for Concept Drift Analysis
- arxiv url: http://arxiv.org/abs/2505.18551v1
- Date: Sat, 24 May 2025 06:36:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.50228
- Title: LAMDA: A Longitudinal Android Malware Benchmark for Concept Drift Analysis
- Title(参考訳): LAMDA: コンセプトドリフト分析のための縦型Androidマルウェアベンチマーク
- Authors: Md Ahsanul Haque, Ismail Hossain, Md Mahmuduzzaman Kamol, Md Jahangir Alam, Suresh Kumar Amalapuram, Sajedul Talukder, Mohammad Saidur Rahman,
- Abstract要約: LAMDAは、これまでで最大で、時間的に最も多様なAndroidマルウェアベンチマークである。
これは現実世界のAndroidアプリケーションの自然な分布と進化を反映している。
これは、時間的ドリフト、一般化、説明可能性、そして進化する検出課題に関する詳細な研究を可能にする。
- 参考スコア(独自算出の注目度): 5.895643771545453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning (ML)-based malware detection systems often fail to account for the dynamic nature of real-world training and test data distributions. In practice, these distributions evolve due to frequent changes in the Android ecosystem, adversarial development of new malware families, and the continuous emergence of both benign and malicious applications. Prior studies have shown that such concept drift -- distributional shifts in benign and malicious samples, leads to significant degradation in detection performance over time. Despite the practical importance of this issue, existing datasets are often outdated and limited in temporal scope, diversity of malware families, and sample scale, making them insufficient for the systematic evaluation of concept drift in malware detection. To address this gap, we present LAMDA, the largest and most temporally diverse Android malware benchmark to date, designed specifically for concept drift analysis. LAMDA spans 12 years (2013-2025, excluding 2015), includes over 1 million samples (approximately 37% labeled as malware), and covers 1,380 malware families and 150,000 singleton samples, reflecting the natural distribution and evolution of real-world Android applications. We empirically demonstrate LAMDA's utility by quantifying the performance degradation of standard ML models over time and analyzing feature stability across years. As the most comprehensive Android malware dataset to date, LAMDA enables in-depth research into temporal drift, generalization, explainability, and evolving detection challenges. The dataset and code are available at: https://iqsec-lab.github.io/LAMDA/.
- Abstract(参考訳): 機械学習(ML)ベースのマルウェア検出システムは、実世界のトレーニングとテストデータの分散の動的な性質を考慮できないことが多い。
実際には、これらのディストリビューションは、Androidエコシステムの頻繁な変化、新しいマルウェアファミリーの敵対的開発、良質なアプリケーションと悪意のあるアプリケーションの継続的な出現によって進化している。
これまでの研究では、良質なサンプルと悪意のあるサンプルの分布シフトという、そのような概念の漂流が、時間とともに検出性能を著しく低下させることが示されていた。
この問題の現実的な重要性にもかかわらず、既存のデータセットはしばしば時代遅れで、時間的範囲、マルウェアファミリーの多様性、サンプルスケールに制限されているため、マルウェア検出における概念ドリフトの体系的評価には不十分である。
このギャップに対処するため、我々はこれまでで最大かつ最も時間的に多様なAndroidマルウェアベンチマークであるLAMDAを紹介し、特に概念ドリフト分析のために設計した。
LAMDAは12年(2013-2025年を除く)で、100万以上のサンプル(約37%がマルウェアと名付けられている)を含み、1,380のマルウェアファミリーと15万のシングルトンサンプルをカバーし、現実世界のAndroidアプリケーションの自然分布と進化を反映している。
我々は,標準MLモデルの性能劣化を時間とともに定量化し,機能安定性を長年にわたって分析することによって,LAMDAの有用性を実証的に実証する。
これまでで最も包括的なAndroidマルウェアデータセットとして、LAMDAは、時間的ドリフト、一般化、説明可能性、そして進化する検出課題に関する詳細な研究を可能にする。
データセットとコードは、https://iqsec-lab.github.io/LAMDA/.com/で入手できる。
関連論文リスト
- MalVis: A Large-Scale Image-Based Framework and Dataset for Advancing Android Malware Classification [2.156165260537145]
MalVisはエントロピーとN-gram分析を統合し、マルウェアバイトコードの構造と異常パターンを強調する統合可視化フレームワークである。
CNNモデルを用いた最先端の可視化技術に対するMalVisの評価を行った。
MalVisの精度は95.19%、F1スコア90.81%、精度92.58%、リコール89.10%、MCC87.58%、ROC-AUC98.06%である。
論文 参考訳(メタデータ) (2025-05-17T18:19:35Z) - Revisiting Static Feature-Based Android Malware Detection [0.8192907805418583]
本稿では,Androidマルウェア検出における機械学習研究の妥当性を損なう致命的な落とし穴について述べる。
我々は,より公平なモデル比較を可能にするため,データセットと方法論の実践を改善するためのソリューションを提案する。
本研究の目的は,Androidのマルウェア検出やその他のセキュリティ領域における今後の研究を支援することであり,その結果の信頼性と妥当性を高めることである。
論文 参考訳(メタデータ) (2024-09-11T16:37:50Z) - Revisiting Concept Drift in Windows Malware Detection: Adaptation to Real Drifted Malware with Minimal Samples [10.352741619176383]
本研究では,ドリフトマルウェアの検出と分類を行う新しい手法を提案する。
グラフニューラルネットワークと対向ドメイン適応を利用して、マルウェア制御フローグラフのドリフト不変性を学習する。
当社のアプローチは,公開ベンチマークや,セキュリティ企業によって毎日報告されている実世界のマルウェアデータベース上でのドリフトマルウェアの検出を大幅に改善する。
論文 参考訳(メタデータ) (2024-07-18T22:06:20Z) - A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい手法のモジュラーフレームワークであるADerを包括的視覚異常検出ベンチマークとして紹介する。
このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。
我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-06-05T13:40:07Z) - Investigating Feature and Model Importance in Android Malware Detection: An Implemented Survey and Experimental Comparison of ML-Based Methods [2.9248916859490173]
静的解析だけで抽出した特徴を用いて高い検出精度が得られることを示す。
ランダムフォレストは一般的に最も効果的なモデルであり、より複雑なディープラーニングアプローチよりも優れている。
論文 参考訳(メタデータ) (2023-01-30T10:48:10Z) - Wild-Time: A Benchmark of in-the-Wild Distribution Shift over Time [69.77704012415845]
時間的シフトは、現実世界にデプロイされた機械学習モデルのパフォーマンスを著しく低下させる可能性がある。
ドメイン一般化、連続学習、自己教師付き学習、アンサンブル学習の手法を含む13の先行手法をベンチマークする。
いずれの評価方略も,分布外データから分布外データへの平均的な性能低下を観察する。
論文 参考訳(メタデータ) (2022-11-25T17:07:53Z) - Towards a Fair Comparison and Realistic Design and Evaluation Framework
of Android Malware Detectors [63.75363908696257]
一般的な評価フレームワークを用いて,Androidのマルウェア検出に関する10の研究成果を分析した。
データセットの作成やデザイナの設計に考慮しない場合、トレーニングされたMLモデルに大きく影響する5つの要因を特定します。
その結果,MLに基づく検出器は楽観的に評価され,良好な結果が得られた。
論文 参考訳(メタデータ) (2022-05-25T08:28:08Z) - Fast & Furious: Modelling Malware Detection as Evolving Data Streams [6.6892028759947175]
マルウェアはコンピュータシステムにとって大きな脅威であり、サイバーセキュリティに多くの課題を課している。
本研究では,2つのAndroidデータセットに対するマルウェア分類器に対する概念ドリフトの影響を評価する。
論文 参考訳(メタデータ) (2022-05-24T18:43:40Z) - TadGAN: Time Series Anomaly Detection Using Generative Adversarial
Networks [73.01104041298031]
TadGANは、GAN(Generative Adversarial Networks)上に構築された教師なしの異常検出手法である。
時系列の時間相関を捉えるために,ジェネレータと批評家のベースモデルとしてLSTMリカレントニューラルネットワークを用いる。
提案手法の性能と一般化性を示すため,いくつかの異常スコアリング手法を検証し,最も適した手法を報告する。
論文 参考訳(メタデータ) (2020-09-16T15:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。