論文の概要: Generating Synthetic Malware Samples Using Generative AI
- arxiv url: http://arxiv.org/abs/2604.22084v1
- Date: Thu, 23 Apr 2026 21:33:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.273847
- Title: Generating Synthetic Malware Samples Using Generative AI
- Title(参考訳): 生成AIを用いた合成マルウェアサンプルの生成
- Authors: Tiffany Bao, Kylie Trousil, Quang Duy Tran, Fabio Di Troia, Younghee Park,
- Abstract要約: そこで我々は,不均衡なマルウェアデータセットを増大させるために,合成マルウェアサンプルを生成する新しいシステムを提案する。
実験結果から, 学習データを合成データで強化することで, マイノリティの分類性能が著しく向上することが示された。
- 参考スコア(独自算出の注目度): 5.191851016078567
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Malware attacks have a significant negative impact on organizations of varied scales in the field of cybersecurity. Recently, malware researchers have increasingly turned to machine learning techniques to combat sophisticated obfuscation methods used in malware. However, collecting a diverse set of malware samples with various obfuscation techniques is challenging and often takes years, especially for newly developed malware. This issue is further compounded by a well-known limitation of machine learning models: their poor performance when training data is scarce. In this paper, we propose a new system for generating synthetic malware samples to augment imbalanced malware dataset. Our approach decomposes malware binary samples into mnemonic opcode sequences, leveraging natural language processing to extract contextual meaning behind malware opcode features to aid the learning of generative AI (GenAI) employed in this paper, Generative Adversarial Networks (GAN), Wasserstein Generative Adversarial Networks with Gradient Penalty (WGAN-GP), and a modified Diffusion model. The experiment results show that augmenting training data with Diffusion-based synthetic data significantly improves classification performance for minor classes by up to 60% on average. This enhancement ultimately leads to an overall malware classification performance of 96%, an 8% improvement. These findings demonstrate the high quality and fidelity of the synthetic data, its robustness, and its potential applications in malware analysis. Specifically, synthetic malware data proves effective in improving the classification of minor malware classes and detection rates, even though the size of known malware data is significantly small.
- Abstract(参考訳): マルウェア攻撃は、サイバーセキュリティの分野で様々な規模の組織に重大な影響を及ぼす。
近年、マルウェア研究者は、マルウェアで使われる高度な難読化手法に対抗するために、機械学習技術に目を向けている。
しかし、様々な難読化手法で多様なマルウェアのサンプルを収集することは困難であり、特に新しく開発されたマルウェアには数年を要することが多い。
この問題は、マシンラーニングモデルのよく知られた制限によってさらに複雑化されている。
本稿では,不均衡なマルウェアデータセットを増大させるために,合成マルウェアサンプルを生成する新しいシステムを提案する。
提案手法では,マルウェアのバイナリ・サンプルをモニーモニック・オペコード・シーケンスに分解し,自然言語処理を利用してマルウェア・オペコード機能の背後にある文脈的意味を抽出し,生成的AI(GenAI)の学習,GAN,Wassastein Generative Adversarial Networks with Gradient Penalty(WGAN-GP),Diffusionモデルを修正する。
実験結果から,拡散法に基づく合成データによるトレーニングデータの増加は,マイノリティクラスにおける分類性能を平均60%まで向上させることが示された。
これにより、マルウェアの分類性能は96%向上し、8%向上した。
これらの結果から, 合成データの高品質かつ忠実性, その堅牢性, およびマルウェア解析への応用の可能性が確認された。
具体的には、既知のマルウェアデータのサイズが著しく小さいにもかかわらず、小規模なマルウェアの分類と検出率を改善するのに有効であることを示す。
関連論文リスト
- Synthetic Data: AI's New Weapon Against Android Malware [0.0]
攻撃者は人工知能を使って、従来の検出技術を回避できる高度なマルウェアのバリエーションを作成している。
MalSynGenは、条件付き生成逆数ネットワーク(cGAN)を使用して合成データを生成する、Malware Synthetic Data Generation方法論である。
このデータは,実世界のデータの統計特性を保存し,Androidマルウェア分類器の性能を向上させる。
論文 参考訳(メタデータ) (2025-11-24T19:27:58Z) - Evaluating the Robustness of a Production Malware Detection System to Transferable Adversarial Attacks [43.26879314353337]
本稿では,MLコンポーネントを対象とする敵攻撃が,プロダクショングレードのマルウェア検出システム全体を分解あるいはバイパスする方法について検討する。
マルウェアサンプルの13バイトだけを変えることで、90%のケースでMagikaを回避できます。
防御された生産モデルでは、攻撃の成功率を20%に抑えるために、高度にリソースを確保できる敵は50バイトしか必要としない。
論文 参考訳(メタデータ) (2025-10-02T05:04:44Z) - Relation-aware based Siamese Denoising Autoencoder for Malware Few-shot Classification [6.7203034724385935]
マルウェアが目に見えないゼロデイエクスプロイトを採用した場合、従来のセキュリティ対策では検出できない可能性がある。
既存の機械学習手法は、特定の時代遅れのマルウェアサンプルに基づいて訓練されており、新しいマルウェアの機能に適応するのに苦労する可能性がある。
そこで我々は,より正確な類似性確率を計算するために,関係認識型埋め込みを用いた新しいシームズニューラルネットワーク(SNN)を提案する。
論文 参考訳(メタデータ) (2024-11-21T11:29:10Z) - Do You Trust Your Model? Emerging Malware Threats in the Deep Learning Ecosystem [36.28578334243828]
ニューラルネットワークに自己抽出型自己実行型マルウェアを組み込むテクニックであるMaleficNet 2.0を紹介する。
MaleficNet 2.0インジェクションテクニックはステルス性があり、モデルのパフォーマンスを低下させることなく、除去テクニックに対して堅牢である。
我々は、MaleficNet 2.0を用いた概念実証型自己抽出ニューラルネットワークマルウェアを実装し、広く採用されている機械学習フレームワークに対する攻撃の実用性を実証した。
論文 参考訳(メタデータ) (2024-03-06T10:27:08Z) - EMBERSim: A Large-Scale Databank for Boosting Similarity Search in
Malware Analysis [48.5877840394508]
近年,定量化によるマルウェア検出から機械学習への移行が進んでいる。
本稿では、EMBERから始まるバイナリファイルの類似性研究の領域における欠陥に対処することを提案する。
我々は、EMBERに類似情報とマルウェアのクラスタグを付与し、類似性空間のさらなる研究を可能にする。
論文 参考訳(メタデータ) (2023-10-03T06:58:45Z) - DRSM: De-Randomized Smoothing on Malware Classifier Providing Certified
Robustness [58.23214712926585]
我々は,マルウェア検出領域の非ランダム化スムース化技術を再設計し,DRSM(De-Randomized Smoothed MalConv)を開発した。
具体的には,実行可能ファイルの局所構造を最大に保ちながら,逆数バイトの影響を確実に抑制するウィンドウアブレーション方式を提案する。
私たちは、マルウェア実行ファイルの静的検出という領域で、認証された堅牢性を提供する最初の人です。
論文 参考訳(メタデータ) (2023-03-20T17:25:22Z) - New Datasets for Dynamic Malware Classification [0.0]
悪意のあるソフトウェアであるVrusSamplesとVrusShareの2つの新しい、更新されたデータセットを紹介します。
本稿では、これらの2つのデータセットのバランスとバランスの取れていないバージョンにおけるマルチクラスのマルウェア分類性能について分析する。
その結果,不均衡なVirusSampleデータセットでは,Support Vector Machineが94%のスコアを達成していることがわかった。
最も一般的な勾配向上ベースのモデルのひとつであるXGBoostは、VirusShareデータセットの両バージョンにおいて、90%と80%のスコアを達成している。
論文 参考訳(メタデータ) (2021-11-30T08:31:16Z) - Task-Aware Meta Learning-based Siamese Neural Network for Classifying
Obfuscated Malware [5.293553970082943]
既存のマルウェア検出方法は、トレーニングデータセットに難読化されたマルウェアサンプルが存在する場合、異なるマルウェアファミリーを正しく分類できない。
そこで我々は,このような制御フロー難読化技術に対して耐性を持つ,タスク対応の複数ショット学習型サイメスニューラルネットワークを提案する。
提案手法は,同一のマルウェアファミリーに属するマルウェアサンプルを正しく分類し,ユニークなマルウェアシグネチャの認識に極めて有効である。
論文 参考訳(メタデータ) (2021-10-26T04:44:13Z) - Being Single Has Benefits. Instance Poisoning to Deceive Malware
Classifiers [47.828297621738265]
攻撃者は、マルウェア分類器を訓練するために使用されるデータセットをターゲットとした、高度で効率的な中毒攻撃を、どのように起動できるかを示す。
マルウェア検出領域における他の中毒攻撃とは対照的に、我々の攻撃はマルウェアファミリーではなく、移植されたトリガーを含む特定のマルウェアインスタンスに焦点を当てている。
我々は、この新たに発見された深刻な脅威に対する将来の高度な防御に役立つ包括的検出手法を提案する。
論文 参考訳(メタデータ) (2020-10-30T15:27:44Z) - MDEA: Malware Detection with Evolutionary Adversarial Learning [16.8615211682877]
MDEA(Adversarial Malware Detection)モデルであるMDEAは、進化的最適化を使用して攻撃サンプルを作成し、ネットワークを回避攻撃に対して堅牢にする。
進化したマルウェアサンプルでモデルを再トレーニングすることで、その性能は大幅に改善される。
論文 参考訳(メタデータ) (2020-02-09T09:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。