論文の概要: TESSERACT: Eliminating Experimental Bias in Malware Classification
across Space and Time (Extended Version)
- arxiv url: http://arxiv.org/abs/2402.01359v1
- Date: Fri, 2 Feb 2024 12:27:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 15:25:37.981322
- Title: TESSERACT: Eliminating Experimental Bias in Malware Classification
across Space and Time (Extended Version)
- Title(参考訳): TESSERACT: 空間と時間にわたるマルウェア分類における実験バイアスの除去(拡張版)
- Authors: Zeliang Kan, Shae McFadden, Daniel Arp, Feargus Pendlebury, Roberto
Jordaney, Johannes Kinder, Fabio Pierazzi, Lorenzo Cavallaro
- Abstract要約: マルウェア検知器は、常に進化するオペレーティングシステムや攻撃方法によって、しばしば性能劣化を経験する。
本論文は, 検出作業における2つの実験バイアス源により, 一般的に報告される結果が膨らんでいることを論じる。
- 参考スコア(独自算出の注目度): 18.146377453918724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning (ML) plays a pivotal role in detecting malicious software.
Despite the high F1-scores reported in numerous studies reaching upwards of
0.99, the issue is not completely solved. Malware detectors often experience
performance decay due to constantly evolving operating systems and attack
methods, which can render previously learned knowledge insufficient for
accurate decision-making on new inputs. This paper argues that commonly
reported results are inflated due to two pervasive sources of experimental bias
in the detection task: spatial bias caused by data distributions that are not
representative of a real-world deployment; and temporal bias caused by
incorrect time splits of data, leading to unrealistic configurations. To
address these biases, we introduce a set of constraints for fair experiment
design, and propose a new metric, AUT, for classifier robustness in real-world
settings. We additionally propose an algorithm designed to tune training data
to enhance classifier performance. Finally, we present TESSERACT, an
open-source framework for realistic classifier comparison. Our evaluation
encompasses both traditional ML and deep learning methods, examining published
works on an extensive Android dataset with 259,230 samples over a five-year
span. Additionally, we conduct case studies in the Windows PE and PDF domains.
Our findings identify the existence of biases in previous studies and reveal
that significant performance enhancements are possible through appropriate,
periodic tuning. We explore how mitigation strategies may support in achieving
a more stable and better performance over time by employing multiple strategies
to delay performance decay.
- Abstract(参考訳): 機械学習(ML)は、悪意のあるソフトウェアを検出する上で重要な役割を果たす。
多くの研究で報告された高いf1-scoreは 0.99 に達しているが、完全な解決には至っていない。
マルウェア検知器は、常に進化しているオペレーティングシステムや攻撃方法により、しばしば性能劣化を経験する。
本稿では、実世界の展開を代表していないデータ分布による空間バイアスと、誤った時間分割による時間バイアスと、非現実的な構成をもたらす2つの実験バイアスが原因で、一般的に報告される結果が膨らんでいることを論じる。
これらのバイアスに対処するために、公正な実験設計のための一連の制約を導入し、実世界の環境における分類器の堅牢性に対する新しい指標AUTを提案する。
さらに,学習データをチューニングして分類器の性能を向上させるアルゴリズムを提案する。
最後に,リアルな分類器比較のためのオープンソースフレームワークであるTESSERACTを紹介する。
評価対象は従来のMLとディープラーニングの両方で,5年間にわたる259,230のサンプルを含む広範なAndroidデータセットの公開作業について検討した。
さらに, windows pe および pdf ドメインでケーススタディを実施している。
以上の結果から,先行研究におけるバイアスの存在が明らかとなり,適切な周期的チューニングにより,大幅な性能向上が可能であることが判明した。
我々は、パフォーマンスの低下を遅らせるために複数の戦略を採用することにより、より安定し、より良いパフォーマンスを達成するために緩和戦略がいかに役立つかを探る。
関連論文リスト
- Evaluating the Efficacy of Instance Incremental vs. Batch Learning in Delayed Label Environments: An Empirical Study on Tabular Data Streaming for Fraud Detection [0.13980986259786224]
不正検出やクレジットスコアリングといった現実世界のシナリオでは、ラベルが遅れる可能性がある。
バッチインクリメンタルアルゴリズムは多くの現実世界のタスクで広く使われている。
以上の結果から,インクリメンタル学習が優れた選択肢ではないことが示唆された。
論文 参考訳(メタデータ) (2024-09-16T09:20:01Z) - Model Debiasing by Learnable Data Augmentation [19.625915578646758]
本稿では,トレーニングを正規化可能なデータ拡張戦略を備えた,新しい2段階学習パイプラインを提案する。
合成および現実的なバイアス付きデータセットの実験は、最先端の分類精度を示し、競合する手法より優れている。
論文 参考訳(メタデータ) (2024-08-09T09:19:59Z) - A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい手法のモジュラーフレームワークであるADerを包括的視覚異常検出ベンチマークとして紹介する。
このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。
我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-06-05T13:40:07Z) - Adaptive Rentention & Correction for Continual Learning [114.5656325514408]
連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。
アダプティブ・リテンション・アンド・コレクション (ARC) のアプローチを例に挙げる。
ARCはCIFAR-100とImagenet-Rのデータセットで平均2.7%と2.6%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2024-05-23T08:43:09Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z) - DELTA: degradation-free fully test-time adaptation [59.74287982885375]
テスト時間バッチ正規化(BN)や自己学習といった,一般的な適応手法では,2つの好ましくない欠陥が隠されていることがわかった。
まず、テスト時間BNにおける正規化統計は、現在受信されているテストサンプルに完全に影響され、その結果、不正確な推定結果が得られることを明らかにする。
第二に、テスト時間適応中にパラメータ更新が支配的なクラスに偏っていることを示す。
論文 参考訳(メタデータ) (2023-01-30T15:54:00Z) - Wild-Time: A Benchmark of in-the-Wild Distribution Shift over Time [69.77704012415845]
時間的シフトは、現実世界にデプロイされた機械学習モデルのパフォーマンスを著しく低下させる可能性がある。
ドメイン一般化、連続学習、自己教師付き学習、アンサンブル学習の手法を含む13の先行手法をベンチマークする。
いずれの評価方略も,分布外データから分布外データへの平均的な性能低下を観察する。
論文 参考訳(メタデータ) (2022-11-25T17:07:53Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Robust Fairness-aware Learning Under Sample Selection Bias [17.09665420515772]
サンプル選択バイアス下での頑健で公正な学習のための枠組みを提案する。
テストデータが利用可能で、利用できない場合に、サンプル選択バイアスを処理する2つのアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-05-24T23:23:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。