論文の概要: DRMD: Deep Reinforcement Learning for Malware Detection under Concept Drift
- arxiv url: http://arxiv.org/abs/2508.18839v1
- Date: Tue, 26 Aug 2025 09:15:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.777635
- Title: DRMD: Deep Reinforcement Learning for Malware Detection under Concept Drift
- Title(参考訳): DRMD:コンセプトドリフト下でのマルウェア検出のための深層強化学習
- Authors: Shae McFadden, Myles Foley, Mario D'Onghia, Chris Hicks, Vasilios Mavroudis, Nicola Paoletti, Fabio Pierazzi,
- Abstract要約: 我々は1ステップのマルコフ決定プロセスとしてマルウェア検出の新しい定式化を開発する。
深層強化学習(DRL)エージェントを訓練し、サンプル分類性能を最適化し、手動ラベリングのための高リスクサンプルを拒否する。
本研究は,DRLが効果的なマルウェア検出と,ドリフトの概念に対するレジリエンスを向上させることを初めて示すものである。
- 参考スコア(独自算出の注目度): 17.324132213093872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Malware detection in real-world settings must deal with evolving threats, limited labeling budgets, and uncertain predictions. Traditional classifiers, without additional mechanisms, struggle to maintain performance under concept drift in malware domains, as their supervised learning formulation cannot optimize when to defer decisions to manual labeling and adaptation. Modern malware detection pipelines combine classifiers with monthly active learning (AL) and rejection mechanisms to mitigate the impact of concept drift. In this work, we develop a novel formulation of malware detection as a one-step Markov Decision Process and train a deep reinforcement learning (DRL) agent, simultaneously optimizing sample classification performance and rejecting high-risk samples for manual labeling. We evaluated the joint detection and drift mitigation policy learned by the DRL-based Malware Detection (DRMD) agent through time-aware evaluations on Android malware datasets subject to realistic drift requiring multi-year performance stability. The policies learned under these conditions achieve a higher Area Under Time (AUT) performance compared to standard classification approaches used in the domain, showing improved resilience to concept drift. Specifically, the DRMD agent achieved a $5.18\pm5.44$, $14.49\pm12.86$, and $10.06\pm10.81$ average AUT performance improvement for the classification only, classification with rejection, and classification with rejection and AL settings, respectively. Our results demonstrate for the first time that DRL can facilitate effective malware detection and improved resiliency to concept drift in the dynamic environment of the Android malware domain.
- Abstract(参考訳): 現実の環境でのマルウェア検出は、進化する脅威、ラベリング予算の制限、不確実な予測に対処する必要がある。
従来の分類器は、決定を手動のラベル付けや適応に延期するタイミングを最適化できないため、マルウェアドメインのコンセプトドリフト下でのパフォーマンスを維持するのに苦労している。
現代のマルウェア検出パイプラインは、分類器と月次アクティブラーニング(AL)と拒絶機構を組み合わせることで、コンセプトドリフトの影響を軽減する。
本研究では,一段階のマルコフ決定プロセスとしてマルウェア検出の新たな定式化を開発し,深層強化学習(DRL)エージェントを訓練し,同時にサンプル分類性能を最適化し,手動ラベリングのための高リスクサンプルを拒否する。
DRLをベースとしたMalware Detection (DRMD) エージェントが学習した共同検出・ドリフト緩和ポリシーを,複数年にわたる性能安定性を必要とする現実的なドリフトを考慮したAndroidマルウェアデータセットの時間認識評価により評価した。
これらの条件下で学んだポリシーは、ドメインで使用される標準分類アプローチと比較して、AUT(Area Under Time)のパフォーマンスが向上し、コンセプトドリフトに対するレジリエンスが改善された。
具体的には、DRMDエージェントは5.18\pm5.44$、14.49\pm12.86$、および10.06\pm10.81$の平均AUTパフォーマンス改善、拒絶による分類、AL設定による分類をそれぞれ達成した。
本研究は,Android マルウェア領域の動的環境において,DRL が効果的なマルウェア検出とレジリエンスの向上を促進できることを示すものである。
関連論文リスト
- ADAPT: A Pseudo-labeling Approach to Combat Concept Drift in Malware Detection [0.8192907805418583]
データ分散の変更に機械学習モデルを適用するには、頻繁な更新が必要である。
我々は、コンセプトドリフトに対処するための新しい擬似ラベル付き半教師付きアルゴリズムであるtexttADAPTを紹介する。
論文 参考訳(メタデータ) (2025-07-11T13:47:07Z) - EKPC: Elastic Knowledge Preservation and Compensation for Class-Incremental Learning [53.88000987041739]
クラスインクリメンタルラーニング(Class-Incremental Learning, CIL)は、AIモデルを、時間とともに異なるクラスのシーケンシャルに到着したデータから継続的に学習可能にすることを目的としている。
本稿では, 重要度を考慮した重要度正規化 (IPR) と CIL のためのトレーニング可能なセマンティックドリフト補償 (TSDC) を統合したElastic Knowledge Preservation and Compensation (EKPC) 法を提案する。
論文 参考訳(メタデータ) (2025-06-14T05:19:58Z) - Efficient Test-time Adaptive Object Detection via Sensitivity-Guided Pruning [73.40364018029673]
連続的なテスト時間適応オブジェクト検出(CTTA-OD)は、源となる事前訓練された検出器を常に変化する環境にオンライン適応させることを目的としている。
私たちのモチベーションは、学習したすべての特徴が有益であるとは限らないという観察に起因しています。
FLOPの計算オーバヘッドを12%削減し,優れた適応性を実現する。
論文 参考訳(メタデータ) (2025-06-03T05:27:56Z) - Revisiting Concept Drift in Windows Malware Detection: Adaptation to Real Drifted Malware with Minimal Samples [10.352741619176383]
本研究では,ドリフトマルウェアの検出と分類を行う新しい手法を提案する。
グラフニューラルネットワークと対向ドメイン適応を利用して、マルウェア制御フローグラフのドリフト不変性を学習する。
当社のアプローチは,公開ベンチマークや,セキュリティ企業によって毎日報告されている実世界のマルウェアデータベース上でのドリフトマルウェアの検出を大幅に改善する。
論文 参考訳(メタデータ) (2024-07-18T22:06:20Z) - Combating Concept Drift with Explanatory Detection and Adaptation for Android Malware Classification [17.399454244765842]
DREAMはドリフトの検出を改善し、説明適応プロセスを確立する新しいシステムである。
評価の結果,DREAMはドリフト検出精度を効果的に向上し,適応における専門家分析の労力を削減できることがわかった。
論文 参考訳(メタデータ) (2024-05-07T07:55:45Z) - Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。
このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。
本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文 参考訳(メタデータ) (2024-02-07T21:58:40Z) - How Robust are Randomized Smoothing based Defenses to Data Poisoning? [66.80663779176979]
我々は、トレーニングデータの品質の重要性を強調する堅牢な機械学習モデルに対して、これまで認識されていなかった脅威を提示します。
本稿では,二段階最適化に基づく新たなデータ中毒攻撃法を提案し,ロバストな分類器のロバスト性を保証する。
我々の攻撃は、被害者が最先端のロバストな訓練方法を用いて、ゼロからモデルを訓練しても効果的である。
論文 参考訳(メタデータ) (2020-12-02T15:30:21Z) - Unsupervised Domain Adaptation for Speech Recognition via Uncertainty
Driven Self-Training [55.824641135682725]
WSJ をソースドメインとし,TED-Lium 3 とSWITCHBOARD を併用したドメイン適応実験を行った。
論文 参考訳(メタデータ) (2020-11-26T18:51:26Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。