論文の概要: LFreeDA: Label-Free Drift Adaptation for Windows Malware Detection
- arxiv url: http://arxiv.org/abs/2511.14963v1
- Date: Tue, 18 Nov 2025 23:08:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.558164
- Title: LFreeDA: Label-Free Drift Adaptation for Windows Malware Detection
- Title(参考訳): LFreeDA: Windows マルウェア検出のためのラベルなしドリフト適応
- Authors: Adrian Shuai Li, Elisa Bertino,
- Abstract要約: 本稿では,マルウェア分類器を手動ラベリングやドリフト検出なしでドリフトに適応させるエンド・ツー・エンドのフレームワークであるLFreeDAを紹介する。
LFreeDAはまず、マルウェア画像の教師なし領域適応を行い、ラベル付きサンプルとラベルなしサンプルを共同でトレーニングし、擬似ラベルとプルーネノイズを推測する。
評価の結果、LFreeDAは非適応下限よりも最大で12.6%、F1は11.1%の精度向上を示し、それぞれ、完全に監督された上限の精度とF1の3.4%以下である。
- 参考スコア(独自算出の注目度): 9.054165392355877
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning (ML)-based malware detectors degrade over time as concept drift introduces new and evolving families unseen during training. Retraining is limited by the cost and time of manual labeling or sandbox analysis. Existing approaches mitigate this via drift detection and selective labeling, but fully label-free adaptation remains largely unexplored. Recent self-training methods use a previously trained model to generate pseudo-labels for unlabeled data and then train a new model on these labels. The unlabeled data are used only for inference and do not participate in training the earlier model. We argue that these unlabeled samples still carry valuable information that can be leveraged when incorporated appropriately into training. This paper introduces LFreeDA, an end-to-end framework that adapts malware classifiers to drift without manual labeling or drift detection. LFreeDA first performs unsupervised domain adaptation on malware images, jointly training on labeled and unlabeled samples to infer pseudo-labels and prune noisy ones. It then adapts a classifier on CFG representations using the labeled and selected pseudo-labeled data, leveraging the scalability of images for pseudo-labeling and the richer semantics of CFGs for final adaptation. Evaluations on the real-world MB-24+ dataset show that LFreeDA improves accuracy by up to 12.6% and F1 by 11.1% over no-adaptation lower bounds, and is only 4% and 3.4% below fully supervised upper bounds in accuracy and F1, respectively. It also matches the performance of state-of-the-art methods provided with ground truth labels for 300 target samples. Additional results on two controlled-drift benchmarks further confirm that LFreeDA maintains malware detection performance as malware evolves without human labeling.
- Abstract(参考訳): 機械学習(ML)ベースのマルウェア検知器は、コンセプトドリフトによって、トレーニング中に目に見えない新しく進化した家族が導入されるにつれて、時間の経過とともに劣化する。
リトレーニングは、手動ラベリングやサンドボックス分析のコストと時間によって制限される。
既存のアプローチはドリフト検出と選択的ラベリングによってこれを緩和するが、完全なラベルなし適応はほとんど探索されていない。
最近の自己学習手法では、事前に訓練されたモデルを使用して、ラベルのないデータに対して擬似ラベルを生成し、これらのラベルで新しいモデルを訓練している。
ラベルなしデータは推論にのみ使用され、以前のモデルのトレーニングには参加しない。
これらのラベルのないサンプルは、トレーニングに適切に組み込まれたときに活用できる貴重な情報を持っている、と我々は主張する。
本稿では,マルウェア分類器を手動ラベリングやドリフト検出なしでドリフトに適応させるエンド・ツー・エンドのフレームワークであるLFreeDAを紹介する。
LFreeDAはまず、マルウェア画像の教師なし領域適応を行い、ラベル付きサンプルとラベルなしサンプルを共同でトレーニングし、擬似ラベルとプルーネノイズを推測する。
次に、ラベル付きおよび選択された擬似ラベル付きデータを用いてCFG表現に分類器を適応させ、擬似ラベル付けのための画像のスケーラビリティと最終適応のためのCFGのよりリッチなセマンティクスを活用する。
実世界のMB-24+データセットの評価では、LFreeDAは非適応的な下限よりも最大12.6%、F1は11.1%、それぞれ完全に監督された上限よりは4%、F1よりは3.4%低い。
また、300のターゲットサンプルに対して、地上の真理ラベルを備えた最先端の手法の性能とも一致している。
2つの制御ドリフトベンチマークのさらなる結果により、LFreeDAは人間のラベルなしでマルウェアが進化するにつれてマルウェア検出性能を維持していることが確認された。
関連論文リスト
- Efficient Adaptive Label Refinement for Label Noise Learning [14.617885790129336]
本稿では,不適切なラベルを回避し,クリーンなサンプルを徹底的に学習するための適応ラベル精製(ALR)を提案する。
ALRは単純で効率的であり、ノイズや補助的なデータセットに関する事前の知識を必要としない。
人工ラベルノイズ付きベンチマークデータセット(CIFAR-10/100)と固有ノイズ付き実世界のデータセット(ANIMAL-10N, Clothing1M, WebVision)を用いて、ALRの有効性を検証する。
論文 参考訳(メタデータ) (2025-02-01T09:58:08Z) - Retraining with Predicted Hard Labels Provably Increases Model Accuracy [77.71162068832108]
リトレーニングは、与えられた(ノイズの多い)ラベルで最初にトレーニングすることで得られる人口の精度を向上させることができる。
予測ラベルが与えられたラベルにマッチするサンプルを選択的に再トレーニングすることで、余分なプライバシコストを伴わずにラベルDPトレーニングを大幅に改善できることを実証的に示す。
論文 参考訳(メタデータ) (2024-06-17T04:53:47Z) - Uncertainty-Aware Pseudo-Label Filtering for Source-Free Unsupervised Domain Adaptation [45.53185386883692]
Source-free unsupervised domain adapt (SFUDA) は、訓練済みのソースモデルを、ソースデータにアクセスすることなく、ラベルなしのターゲットドメインで利用できるようにすることを目的としている。
本稿では,不確かさを意識したPseudo-label-filtering Adaptation (UPA) という手法を提案する。
論文 参考訳(メタデータ) (2024-03-17T16:19:40Z) - Boosting Semi-Supervised Learning by bridging high and low-confidence
predictions [4.18804572788063]
Pseudo-labelingは半教師あり学習(SSL)において重要な技術である
ReFixMatchと呼ばれる新しい手法を提案し、これはトレーニング中にラベルなしのデータをすべて活用することを目的としている。
論文 参考訳(メタデータ) (2023-08-15T00:27:18Z) - Refined Pseudo labeling for Source-free Domain Adaptive Object Detection [9.705172026751294]
ソースフリーDは、未ラベルのターゲットデータのみを用いて、ソーストレーニングされた検出器をターゲット領域に適応させる。
既存のソースフリーD手法は、通常擬似ラベリングを利用しており、性能は信頼しきい値の選択に大きく依存している。
本稿では,各カテゴリに対して適切な閾値を適応的に提供する適応しきい値推定モジュールを提案する。
論文 参考訳(メタデータ) (2023-03-07T08:31:42Z) - Dist-PU: Positive-Unlabeled Learning from a Label Distribution
Perspective [89.5370481649529]
本稿では,PU学習のためのラベル分布視点を提案する。
そこで本研究では,予測型と基底型のラベル分布間のラベル分布の整合性を追求する。
提案手法の有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-12-06T07:38:29Z) - Uncertainty-aware Mean Teacher for Source-free Unsupervised Domain
Adaptive 3D Object Detection [6.345037597566315]
擬似ラベルに基づく自己学習アプローチは、ソースフリーな教師なしドメイン適応の一般的な方法である。
本研究では,学習中に誤字を暗黙的にフィルタリングする不確実性認識型平均教師フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-29T18:17:09Z) - Self-Tuning for Data-Efficient Deep Learning [75.34320911480008]
セルフチューニングは、データ効率のよいディープラーニングを可能にする新しいアプローチである。
ラベル付きおよびラベルなしデータの探索と事前訓練されたモデルの転送を統一する。
SSLとTLの5つのタスクをシャープなマージンで上回ります。
論文 参考訳(メタデータ) (2021-02-25T14:56:19Z) - Self-Supervised Noisy Label Learning for Source-Free Unsupervised Domain
Adaptation [87.60688582088194]
新規な自己監督雑音ラベル学習法を提案する。
本手法は最新の結果を容易に達成でき、他の手法を非常に大きなマージンで超えることができる。
論文 参考訳(メタデータ) (2021-02-23T10:51:45Z) - In Defense of Pseudo-Labeling: An Uncertainty-Aware Pseudo-label
Selection Framework for Semi-Supervised Learning [53.1047775185362]
Pseudo-labeling (PL) は一般的な SSL アプローチで、この制約はありませんが、当初の処方では比較的不十分です。
PLは不整合モデルからの誤った高い信頼度予測により性能が低下していると論じる。
そこで本研究では,疑似ラベリング精度を向上させるための不確実性認識型擬似ラベル選択(ups)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-15T23:29:57Z) - A Free Lunch for Unsupervised Domain Adaptive Object Detection without
Source Data [69.091485888121]
教師なしドメイン適応(unsupervised domain adaptation) ソースとターゲットのドメインデータは自由に利用でき、通常、ドメイン間のギャップを減らすために一緒に訓練される。
ノイズの多いラベルで学習する問題にモデル化することで,ソースデータのないドメイン適応オブジェクト検出(SFOD)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-10T01:42:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。