論文の概要: Counteracting Concept Drift by Learning with Future Malware Predictions
- arxiv url: http://arxiv.org/abs/2404.09352v1
- Date: Sun, 14 Apr 2024 20:28:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 14:18:53.670680
- Title: Counteracting Concept Drift by Learning with Future Malware Predictions
- Title(参考訳): 将来のマルウェア予測による学習によるコンセプトドリフトの防止
- Authors: Branislav Bosansky, Lada Hospodkova, Michal Najman, Maria Rigaki, Elnaz Babayeva, Viliam Lisy,
- Abstract要約: 新しい悪意のあるファイルはマルウェアの作者によって作成され、検出を避けることを目的としている。
今後のサンプルを予測するための2つの手法の比較を行った。(1)逆トレーニングと(2)生成逆ネットワーク(GAN)である。
GANは将来のマルウェアの予測としてうまく利用することができる。
- 参考スコア(独自算出の注目度): 0.23090185577016445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The accuracy of deployed malware-detection classifiers degrades over time due to changes in data distributions and increasing discrepancies between training and testing data. This phenomenon is known as the concept drift. While the concept drift can be caused by various reasons in general, new malicious files are created by malware authors with a clear intention of avoiding detection. The existence of the intention opens a possibility for predicting such future samples. Including predicted samples in training data should consequently increase the accuracy of the classifiers on new testing data. We compare two methods for predicting future samples: (1) adversarial training and (2) generative adversarial networks (GANs). The first method explicitly seeks for adversarial examples against the classifier that are then used as a part of training data. Similarly, GANs also generate synthetic training data. We use GANs to learn changes in data distributions within different time periods of training data and then apply these changes to generate samples that could be in testing data. We compare these prediction methods on two different datasets: (1) Ember public dataset and (2) the internal dataset of files incoming to Avast. We show that while adversarial training yields more robust classifiers, this method is not a good predictor of future malware in general. This is in contrast with previously reported positive results in different domains (including natural language processing and spam detection). On the other hand, we show that GANs can be successfully used as predictors of future malware. We specifically examine malware families that exhibit significant changes in their data distributions over time and the experimental results confirm that GAN-based predictions can significantly improve the accuracy of the classifier on new, previously unseen data.
- Abstract(参考訳): デプロイされたマルウェア検出分類器の精度は、データ分散の変化と、トレーニングとテストデータの差異の増加により、時間の経過とともに低下する。
この現象は概念ドリフトとして知られている。
コンセプトドリフトは、一般的に様々な理由で引き起こされるが、マルウェアの作者が検出を避けるという明確な意図で、新しい悪意のあるファイルを生成する。
意図の存在は、そのような将来のサンプルを予測する可能性を開く。
その結果、予測サンプルをトレーニングデータに含めることで、新しいテストデータに対する分類器の精度が向上する。
本研究では,(1)対人訓練と(2)GAN(Generative Adversarial Network)の2つの手法を比較した。
最初の方法は、トレーニングデータの一部として使用される分類器に対する逆例を明示的に求めている。
同様に、GANは合成トレーニングデータも生成する。
トレーニングデータの異なる期間におけるデータ分散の変化を学習するために、GANを使用して、これらの変更を適用して、テストデータに含まれる可能性のあるサンプルを生成します。
本研究では,これらの予測手法を,(1)Ember公開データセットと(2)Avastに受信したファイルの内部データセットの2つの異なるデータセットで比較する。
敵の訓練はより堅牢な分類器を生成するが、この手法は将来のマルウェアの予測には適さないことを示す。
これは、異なるドメイン(自然言語処理やスパム検出を含む)で以前報告された肯定的な結果とは対照的である。
一方,今後のマルウェアの予測にはGANが有効であることを示す。
本研究では, 時間とともにデータ分布に大きな変化を示すマルウェア群について検討し, 実験結果から, GANに基づく予測により, 未確認データに対する分類器の精度が著しく向上することを確認した。
関連論文リスト
- Ask Your Distribution Shift if Pre-Training is Right for You [74.18516460467019]
実際に、事前訓練されたモデルの微調整は、いくつかのケースではロバスト性を大幅に改善するが、他のケースではまったく改善しない。
分散シフト中のモデルの2つの障害モード – トレーニングデータの補間不足とバイアス – に注目する。
我々の研究は、親指の規則として、事前学習は、粗悪な外挿を緩和するがデータセットのバイアスを緩和する助けとなることを示唆している。
論文 参考訳(メタデータ) (2024-02-29T23:46:28Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Managing dataset shift by adversarial validation for credit scoring [5.560471251954645]
トレーニングデータの分布と実際に予測する必要があるデータとの矛盾は、モデルパフォーマンスの低下を引き起こす可能性がある。
本稿では,クレジットスコアリングシナリオにおけるデータセットシフト問題を軽減するための,逆検証に基づく手法を提案する。
論文 参考訳(メタデータ) (2021-12-19T07:07:15Z) - Do Not Trust Prediction Scores for Membership Inference Attacks [15.567057178736402]
メンバーシップ推論攻撃(MIA)は、特定のサンプルが予測モデルのトレーニングに使用されたかどうかを判断することを目的としている。
これは、多くの現代のディープネットワークアーキテクチャにとって誤りである、と我々は主張する。
トレーニングデータの一部として誤って分類された、潜在的に無限のサンプルを生成できるのです。
論文 参考訳(メタデータ) (2021-11-17T12:39:04Z) - Continual Learning for Fake Audio Detection [62.54860236190694]
本論文では,連続学習に基づく手法である忘れずに偽物を検出することで,モデルに新たなスプーフィング攻撃をインクリメンタルに学習させる手法を提案する。
ASVspoof 2019データセットで実験が行われる。
論文 参考訳(メタデータ) (2021-04-15T07:57:05Z) - Improving Uncertainty Calibration via Prior Augmented Data [56.88185136509654]
ニューラルネットワークは、普遍関数近似器として機能することで、複雑なデータ分布から学習することに成功した。
彼らはしばしば予測に自信過剰であり、不正確で誤った確率的予測に繋がる。
本稿では,モデルが不当に過信である特徴空間の領域を探索し,それらの予測のエントロピーをラベルの以前の分布に対して条件的に高める手法を提案する。
論文 参考訳(メタデータ) (2021-02-22T07:02:37Z) - Robustness to Spurious Correlations in Text Classification via
Automatically Generated Counterfactuals [8.827892752465958]
自動生成された反実データを用いてトレーニングデータを増強し、堅牢なテキスト分類器のトレーニングを提案する。
因果的特徴を強調し,非因果的特徴を強調することで,ロバスト分類器は有意義で信頼性の高い予測を行うことを示す。
論文 参考訳(メタデータ) (2020-12-18T03:57:32Z) - Robust Validation: Confident Predictions Even When Distributions Shift [19.327409270934474]
本稿では,モデルが点予測ではなく,その予測に対して不確実な推定を行うような,頑健な予測推論の手順について述べる。
本稿では, トレーニング集団の周囲に$f$-divergence のボールを用いて, 任意のテスト分布に対して適切なカバレッジレベルを与える予測セットを生成する手法を提案する。
私たちの方法論の重要な構成要素は、将来のデータシフトの量を見積り、それに対する堅牢性を構築することです。
論文 参考訳(メタデータ) (2020-08-10T17:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。