論文の概要: LLM-Generated Samples for Android Malware Detection
- arxiv url: http://arxiv.org/abs/2510.02391v1
- Date: Tue, 30 Sep 2025 23:46:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.07341
- Title: LLM-Generated Samples for Android Malware Detection
- Title(参考訳): LLMによるAndroidマルウェア検出用サンプル
- Authors: Nik Rollinson, Nikolaos Polatidis,
- Abstract要約: BankBot、Locker/SLocker、Airpush/StopSMSの3つのマルウェアファミリーで構造化されたレコードを生成するために、GPT-4.1-miniを微調整する。
実データのみを用いたトレーニング,実データ+合成データ,合成データのみを用いて,複数の分類器を3つの設定で評価する。
以上の結果から, 実時間のみのトレーニングは, ほぼ完全な検出が可能であり, 合成データによる増強は, 微弱な劣化のみを伴って高い性能を保っていることがわかった。
- 参考スコア(独自算出の注目度): 0.6187780920448871
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Android malware continues to evolve through obfuscation and polymorphism, posing challenges for both signature-based defenses and machine learning models trained on limited and imbalanced datasets. Synthetic data has been proposed as a remedy for scarcity, yet the role of large language models (LLMs) in generating effective malware data for detection tasks remains underexplored. In this study, we fine-tune GPT-4.1-mini to produce structured records for three malware families: BankBot, Locker/SLocker, and Airpush/StopSMS, using the KronoDroid dataset. After addressing generation inconsistencies with prompt engineering and post-processing, we evaluate multiple classifiers under three settings: training with real data only, real-plus-synthetic data, and synthetic data alone. Results show that real-only training achieves near perfect detection, while augmentation with synthetic data preserves high performance with only minor degradations. In contrast, synthetic-only training produces mixed outcomes, with effectiveness varying across malware families and fine-tuning strategies. These findings suggest that LLM-generated malware can enhance scarce datasets without compromising detection accuracy, but remains insufficient as a standalone training source.
- Abstract(参考訳): Androidのマルウェアは難読化と多型化を通じて進化を続けており、シグネチャベースのディフェンスと、制限付きと不均衡なデータセットでトレーニングされた機械学習モデルの両方に課題を提起している。
合成データは希少性の対策として提案されているが、検出タスクに有効なマルウェアデータを生成する上での大規模言語モデル(LLM)の役割はいまだ過小評価されていない。
本研究では、KronoDroidデータセットを用いて、GPT-4.1-miniを微調整し、3つのマルウェアファミリー(BankBot、Locker/SLocker、Airpush/StopSMS)の構造化レコードを生成する。
素早いエンジニアリングと後処理による生成の不整合に対処した後、実データのみを用いたトレーニング、実合成データ、合成データのみを用いて、複数の分類器を3つの設定で評価した。
以上の結果から, 実時間のみのトレーニングは, ほぼ完全な検出が可能であり, 合成データによる増強は, 微弱な劣化のみを伴って高い性能を保っていることがわかった。
対照的に、合成専用トレーニングは、マルウェアファミリーや微調整戦略によって、様々な結果をもたらす。
これらの結果から,LSM生成マルウェアは検出精度を損なうことなくデータセットを増強できるが,独立したトレーニング源としては不十分であることが示唆された。
関連論文リスト
- The Canary's Echo: Auditing Privacy Risks of LLM-Generated Synthetic Text [23.412546862849396]
我々は、敵がLarge Language Models(LLMs)によって生成された合成データにアクセス可能であると仮定する。
我々は、データ合成に使用されるLPMを微調整するために使用されるトレーニングデータをターゲットに、メンバーシップ推論攻撃(MIA)を設計する。
モデルに基づくMIAのために作られたカナリアは、合成データのみを公開する場合、プライバシー監査のサブ最適化であることがわかった。
論文 参考訳(メタデータ) (2025-02-19T15:30:30Z) - Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning [65.23593936798662]
LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。
微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - Evaluating Language Models as Synthetic Data Generators [99.16334775127875]
AgoraBenchは、LMのデータ生成能力を評価するための標準化された設定とメトリクスを提供するベンチマークである。
6つのLMを使って126万のトレーニングインスタンスを合成し、99の学生モデルをトレーニングすることで、LMのデータ生成能力に関する重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2024-12-04T19:20:32Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - From Zero to Hero: Detecting Leaked Data through Synthetic Data Injection and Model Querying [10.919336198760808]
分類モデルの学習に使用される漏洩データを検出する新しい手法を提案する。
textscLDSSは、クラス分散の局所的なシフトによって特徴付けられる、少量の合成データを所有者のデータセットに注入する。
これにより、モデルクエリ単独で、リークデータに基づいてトレーニングされたモデルの効果的な識別が可能になる。
論文 参考訳(メタデータ) (2023-10-06T10:36:28Z) - Bridging the Gap: Enhancing the Utility of Synthetic Data via
Post-Processing Techniques [7.967995669387532]
生成モデルは、実世界のデータを置き換えたり拡張したりできる合成データセットを生成するための有望なソリューションとして登場した。
本稿では,合成データセットの品質と多様性を向上させるために,新しい3つのポストプロセッシング手法を提案する。
Gap Filler(GaFi)は、Fashion-MNIST、CIFAR-10、CIFAR-100データセットにおいて、実精度スコアとのギャップを2.03%、1.78%、および3.99%に効果的に減少させることを示した。
論文 参考訳(メタデータ) (2023-05-17T10:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。