論文の概要: Synthetic Data: AI's New Weapon Against Android Malware
- arxiv url: http://arxiv.org/abs/2511.19649v1
- Date: Mon, 24 Nov 2025 19:27:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.13304
- Title: Synthetic Data: AI's New Weapon Against Android Malware
- Title(参考訳): 合成データ:AIがAndroidのマルウェアに対抗
- Authors: Angelo Gaspar Diniz Nogueira, Kayua Oleques Paim, Hendrio Bragança, Rodrigo Brandão Mansilha, Diego Kreutz,
- Abstract要約: 攻撃者は人工知能を使って、従来の検出技術を回避できる高度なマルウェアのバリエーションを作成している。
MalSynGenは、条件付き生成逆数ネットワーク(cGAN)を使用して合成データを生成する、Malware Synthetic Data Generation方法論である。
このデータは,実世界のデータの統計特性を保存し,Androidマルウェア分類器の性能を向上させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ever-increasing number of Android devices and the accelerated evolution of malware, reaching over 35 million samples by 2024, highlight the critical importance of effective detection methods. Attackers are now using Artificial Intelligence to create sophisticated malware variations that can easily evade traditional detection techniques. Although machine learning has shown promise in malware classification, its success relies heavily on the availability of up-to-date, high-quality datasets. The scarcity and high cost of obtaining and labeling real malware samples presents significant challenges in developing robust detection models. In this paper, we propose MalSynGen, a Malware Synthetic Data Generation methodology that uses a conditional Generative Adversarial Network (cGAN) to generate synthetic tabular data. This data preserves the statistical properties of real-world data and improves the performance of Android malware classifiers. We evaluated the effectiveness of this approach using various datasets and metrics that assess the fidelity of the generated data, its utility in classification, and the computational efficiency of the process. Our experiments demonstrate that MalSynGen can generalize across different datasets, providing a viable solution to address the issues of obsolescence and low quality data in malware detection.
- Abstract(参考訳): Androidデバイスの増加とマルウェアの急速な進化により、2024年までに3500万以上のサンプルが発見され、効果的な検出方法の重要性が浮かび上がっている。
攻撃者は人工知能を使って、従来の検出技術を回避できる高度なマルウェアのバリエーションを作成している。
機械学習はマルウェアの分類において有望だが、その成功は最新の高品質データセットの可用性に大きく依存している。
実際のマルウェアサンプルの取得とラベル付けの難しさと高コストは、堅牢な検出モデルを開発する上で大きな課題となる。
本稿では,CGAN(Re Conditional Generative Adversarial Network)を用いて合成表データを生成するMalSynGenを提案する。
このデータは,実世界のデータの統計特性を保存し,Androidマルウェア分類器の性能を向上させる。
提案手法の有効性を, 生成したデータの忠実度, 分類における有用性, プロセスの計算効率を評価する各種データセットとメトリクスを用いて評価した。
我々の実験は、MalSynGenがさまざまなデータセットにまたがって一般化可能であることを実証し、マルウェア検出における不溶化と低品質データの問題に対処する実行可能なソリューションを提供する。
関連論文リスト
- ThreatIntel-Andro: Expert-Verified Benchmarking for Robust Android Malware Research [12.287399657700824]
リアルタイムのAndroidマルウェアデータセットは、効果的な検出と防御のための重要な基盤である。
VirusTotalのマルチエンジンアグリゲーション結果のような従来のデータセットには、大きな制限がある。
自動ラベリングツール(例:AVClass2)は準最適アグリゲーション戦略に苦しむ。
論文 参考訳(メタデータ) (2025-10-19T13:51:27Z) - LLM-Generated Samples for Android Malware Detection [0.6187780920448871]
BankBot、Locker/SLocker、Airpush/StopSMSの3つのマルウェアファミリーで構造化されたレコードを生成するために、GPT-4.1-miniを微調整する。
実データのみを用いたトレーニング,実データ+合成データ,合成データのみを用いて,複数の分類器を3つの設定で評価する。
以上の結果から, 実時間のみのトレーニングは, ほぼ完全な検出が可能であり, 合成データによる増強は, 微弱な劣化のみを伴って高い性能を保っていることがわかった。
論文 参考訳(メタデータ) (2025-09-30T23:46:57Z) - PuckTrick: A Library for Making Synthetic Data More Realistic [46.198289193451146]
Pucktrickは、制御エラーを導入して、合成データセットを体系的に汚染するように設計されたPythonライブラリである。
系統的なデータ汚染がモデル性能に与える影響を評価する。
その結果、汚染された合成データに基づいて訓練されたMLモデルは、純粋に合成されたエラーのないデータで訓練されたモデルよりも優れていた。
論文 参考訳(メタデータ) (2025-06-23T10:51:45Z) - R+R: Revisiting Static Feature-Based Android Malware Detection using Machine Learning [4.014524824655106]
マシンラーニング(ML)を使用した静的な機能ベースのAndroidマルウェア検出は、そのスケーラビリティと効率性から、依然として重要な課題である。
既存のアプローチは、しばしばセキュリティクリティカルな懸念を無視する。
本稿では,モデル選択と評価のための厳密な手法を提案する。
論文 参考訳(メタデータ) (2024-09-11T16:37:50Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - Vulnerability Detection with Code Language Models: How Far Are We? [40.455600722638906]
PrimeVulは、脆弱性検出のためのコードLMのトレーニングと評価のための新しいデータセットである。
これは、人間の検証されたベンチマークに匹敵するラベルの精度を達成する、新しいデータラベリング技術を含んでいる。
また、厳密なデータ重複解消戦略と時系列データ分割戦略を実装して、データの漏洩問題を軽減している。
論文 参考訳(メタデータ) (2024-03-27T14:34:29Z) - Android Malware Detection with Unbiased Confidence Guarantees [1.6432632226868131]
本稿では,マルウェア検出毎に確実な信頼性を保証する機械学習動的解析手法を提案する。
提案手法は、Conformal Predictionと呼ばれる新しい機械学習フレームワークと、ランダムな森林分類器を組み合わせたものである。
実際のアンドロイドデバイスに1866の悪意のある4816の良質なアプリケーションをインストールすることで,大規模なデータセット上での性能を検証した。
論文 参考訳(メタデータ) (2023-12-17T11:07:31Z) - A Discrepancy Aware Framework for Robust Anomaly Detection [51.710249807397695]
本稿では,DAF(Disdisrepancy Aware Framework)を提案する。
本手法は,デコーダの欠陥同定に外見に依存しないキューを利用して,その合成外観への依存を緩和する。
単純な合成戦略の下では,既存の手法を大きなマージンで上回り,また,最先端のローカライゼーション性能も達成している。
論文 参考訳(メタデータ) (2023-10-11T15:21:40Z) - Towards a Fair Comparison and Realistic Design and Evaluation Framework
of Android Malware Detectors [63.75363908696257]
一般的な評価フレームワークを用いて,Androidのマルウェア検出に関する10の研究成果を分析した。
データセットの作成やデザイナの設計に考慮しない場合、トレーニングされたMLモデルに大きく影響する5つの要因を特定します。
その結果,MLに基づく検出器は楽観的に評価され,良好な結果が得られた。
論文 参考訳(メタデータ) (2022-05-25T08:28:08Z) - New Datasets for Dynamic Malware Classification [0.0]
悪意のあるソフトウェアであるVrusSamplesとVrusShareの2つの新しい、更新されたデータセットを紹介します。
本稿では、これらの2つのデータセットのバランスとバランスの取れていないバージョンにおけるマルチクラスのマルウェア分類性能について分析する。
その結果,不均衡なVirusSampleデータセットでは,Support Vector Machineが94%のスコアを達成していることがわかった。
最も一般的な勾配向上ベースのモデルのひとつであるXGBoostは、VirusShareデータセットの両バージョンにおいて、90%と80%のスコアを達成している。
論文 参考訳(メタデータ) (2021-11-30T08:31:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。