論文の概要: CITADEL: A Semi-Supervised Active Learning Framework for Malware Detection Under Continuous Distribution Drift
- arxiv url: http://arxiv.org/abs/2511.11979v1
- Date: Sat, 15 Nov 2025 01:34:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.478269
- Title: CITADEL: A Semi-Supervised Active Learning Framework for Malware Detection Under Continuous Distribution Drift
- Title(参考訳): CITADEL: 継続的分散ドリフト下でのマルウェア検出のための半教師付きアクティブラーニングフレームワーク
- Authors: Md Ahsanul Haque, Md Mahmuduzzaman Kamol, Ismail Hossain, Suresh Kumar Amalapuram, Vladik Kreinovich, Mohammad Saidur Rahman,
- Abstract要約: CITADELは,Androidマルウェア検出のための,堅牢な半教師付き能動学習フレームワークである。
我々は,現実的なドリフト挙動をシミュレートするマルウェア特異的拡張,Bernolliビットフリップとマスキングを導入する。
CITADELは, F1スコアが1%以上, 3%, 7%, 14%以上であり, ラベル付きサンプルは40%に過ぎなかった。
- 参考スコア(独自算出の注目度): 2.6040598178524106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Android malware evolves rapidly, leading to concept drift that degrades the performance of traditional machine learning (ML)-based detection systems. While recent approaches incorporate active learning and hierarchical contrastive loss to handle this drift, they remain fully supervised, computationally expensive, and perform poorly on real-world datasets with long temporal spans. In particular, our evaluation highlights these limitations, particularly on LAMDA, a 12-year longitudinal dataset exhibiting substantial distributional shifts. Moreover, manual expert labeling cannot scale with the daily emergence of over 450,000 new malware samples, leaving most samples unlabeled and underutilized. To address these challenges, we propose CITADEL, a robust semi-supervised active learning framework for Android malware detection. To bridge the gap between image-domain semi-supervised learning and binary feature representations of malware, we introduce malware-specific augmentations, Bernoulli bit flips and masking, that simulate realistic drift behaviors. CITADEL further integrates supervised contrastive loss to improve boundary sample discrimination and combines it with a multi-criteria active learning strategy based on prediction confidence, $L_p$-norm distance, and boundary uncertainty, enabling effective adaptation under limited labeling budgets. Extensive evaluation on four large-scale Android malware benchmarks -- APIGraph, Chen-AZ, MaMaDroid, and LAMDA demonstrates that CITADEL outperforms prior work, achieving F1 score of over 1%, 3%, 7%, and 14% respectively, using only 40% labeled samples. Furthermore, CITADEL shows significant efficiency over prior work incurring $24\times$ faster training and $13\times$ fewer operations.
- Abstract(参考訳): Androidのマルウェアは急速に進化し、従来の機械学習(ML)ベースの検出システムのパフォーマンスを低下させるコンセプトドリフトにつながる。
最近のアプローチでは、このドリフトを扱うためにアクティブな学習と階層的なコントラスト損失が組み込まれているが、それらは完全に教師され、計算コストがかかり、長時間の時間的スパンを持つ現実世界のデータセットでは不十分である。
特にLAMDAは,12年連続の分布変化を示すデータセットである。
さらに、マニュアル専門家によるラベル付けは、45万以上の新しいマルウェアサンプルが毎日出現してもスケールできないため、ほとんどのサンプルはラベル付けされず、未使用のままである。
これらの課題に対処するため,Android マルウェア検出のための堅牢な半教師付き能動学習フレームワーク CITADEL を提案する。
画像領域の半教師付き学習とマルウェアのバイナリ特徴表現のギャップを埋めるために,現実的なドリフト動作をシミュレートするマルウェア固有の拡張,ベルヌーイビットフリップ,マスキングを導入する。
CITADELはさらに、教師付きコントラスト損失を統合して境界サンプル識別を改善し、予測信頼度、$L_p$-norm距離、境界不確実性に基づく多条件アクティブラーニング戦略と組み合わせ、限定的なラベル付け予算の下で効果的な適応を可能にする。
APIGraph、Chen-AZ、MaMaDroid、LAMDAの4つの大規模なAndroidマルウェアベンチマークに対する大規模な評価は、CITADELが、わずか40%のラベル付きサンプルを使用して、それぞれ1%、3%、7%、および14%以上のF1スコアを達成したことを実証している。
さらに、CITADELは、より高速なトレーニングで24ドル、より少ないオペレーションで13ドルといった、事前の作業よりも大幅に効率が向上している。
関連論文リスト
- Contamination Detection for VLMs using Multi-Modal Semantic Perturbation [73.76465227729818]
オープンソースのVision-Language Models (VLM)は、ベンチマークタスクで最先端のパフォーマンスを達成した。
プレトレーニングコーパスは,テストセットリークによるパフォーマンスの低下という,実践者とユーザ双方にとって重要な懸念を提起する。
既存の検出手法が不整合性を示すか,不整合性を示すかを示す。
マルチモーダルなセマンティック摂動に基づく,新しい簡易かつ効果的な検出法を提案する。
論文 参考訳(メタデータ) (2025-11-05T18:59:52Z) - DRMD: Deep Reinforcement Learning for Malware Detection under Concept Drift [17.324132213093872]
我々は1ステップのマルコフ決定プロセスとしてマルウェア検出の新しい定式化を開発する。
深層強化学習(DRL)エージェントを訓練し、サンプル分類性能を最適化し、手動ラベリングのための高リスクサンプルを拒否する。
本研究は,DRLが効果的なマルウェア検出と,ドリフトの概念に対するレジリエンスを向上させることを初めて示すものである。
論文 参考訳(メタデータ) (2025-08-26T09:15:33Z) - ADAPT: A Pseudo-labeling Approach to Combat Concept Drift in Malware Detection [0.8192907805418583]
データ分散の変更に機械学習モデルを適用するには、頻繁な更新が必要である。
我々は、コンセプトドリフトに対処するための新しい擬似ラベル付き半教師付きアルゴリズムであるtexttADAPTを紹介する。
論文 参考訳(メタデータ) (2025-07-11T13:47:07Z) - LAMDA: A Longitudinal Android Malware Benchmark for Concept Drift Analysis [5.895643771545453]
LAMDAは、これまでで最大で、時間的に最も多様なAndroidマルウェアベンチマークである。
これは現実世界のAndroidアプリケーションの自然な分布と進化を反映している。
これは、時間的ドリフト、一般化、説明可能性、そして進化する検出課題に関する詳細な研究を可能にする。
論文 参考訳(メタデータ) (2025-05-24T06:36:39Z) - Revisiting Concept Drift in Windows Malware Detection: Adaptation to Real Drifted Malware with Minimal Samples [10.352741619176383]
本研究では,ドリフトマルウェアの検出と分類を行う新しい手法を提案する。
グラフニューラルネットワークと対向ドメイン適応を利用して、マルウェア制御フローグラフのドリフト不変性を学習する。
当社のアプローチは,公開ベンチマークや,セキュリティ企業によって毎日報告されている実世界のマルウェアデータベース上でのドリフトマルウェアの検出を大幅に改善する。
論文 参考訳(メタデータ) (2024-07-18T22:06:20Z) - When Measures are Unreliable: Imperceptible Adversarial Perturbations
toward Top-$k$ Multi-Label Learning [83.8758881342346]
新しい損失関数は、視覚的および測定的不受容性を両立できる敵の摂動を生成するために考案された。
大規模ベンチマークデータセットを用いた実験により,提案手法が最上位の$kのマルチラベルシステムを攻撃する際の優位性を実証した。
論文 参考訳(メタデータ) (2023-07-27T13:18:47Z) - Scale-Equivalent Distillation for Semi-Supervised Object Detection [57.59525453301374]
近年のSemi-Supervised Object Detection (SS-OD) 法は主に自己学習に基づいており、教師モデルにより、ラベルなしデータを監視信号としてハードな擬似ラベルを生成する。
実験結果から,これらの手法が直面する課題を分析した。
本稿では,大規模オブジェクトサイズの分散とクラス不均衡に頑健な簡易かつ効果的なエンド・ツー・エンド知識蒸留フレームワークであるSED(Scale-Equivalent Distillation)を提案する。
論文 参考訳(メタデータ) (2022-03-23T07:33:37Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z) - Transfer Learning without Knowing: Reprogramming Black-box Machine
Learning Models with Scarce Data and Limited Resources [78.72922528736011]
そこで我々は,ブラックボックス・アタベラル・リプログラミング (BAR) という新しい手法を提案する。
ゼロオーダー最適化とマルチラベルマッピング技術を用いて、BARは入力出力応答のみに基づいてブラックボックスMLモデルをプログラムする。
BARは最先端の手法より優れ、バニラ対逆プログラミング法に匹敵する性能を得る。
論文 参考訳(メタデータ) (2020-07-17T01:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。