論文の概要: Leveraging Uncertainty for Improved Static Malware Detection Under
Extreme False Positive Constraints
- arxiv url: http://arxiv.org/abs/2108.04081v1
- Date: Mon, 9 Aug 2021 14:30:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-10 15:01:27.949332
- Title: Leveraging Uncertainty for Improved Static Malware Detection Under
Extreme False Positive Constraints
- Title(参考訳): 極端偽陽性制約下における静的マルウェア検出の精度向上
- Authors: Andre T. Nguyen and Edward Raff and Charles Nicholas and James Holt
- Abstract要約: 本研究では,静的マルウェア検出のための機械学習手法のアンサンブル処理とベイズ処理により,モデル誤りの同定精度が向上することを示す。
特に,本研究では,従来手法で期待されていた0.69から0.80まで,実際に実現された1e-5のFPRにおける真の正の率(TPR)を,Sophos業界スケールデータセット上で最高のモデルクラスで改善する。
- 参考スコア(独自算出の注目度): 21.241478970181912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The detection of malware is a critical task for the protection of computing
environments. This task often requires extremely low false positive rates (FPR)
of 0.01% or even lower, for which modern machine learning has no readily
available tools. We introduce the first broad investigation of the use of
uncertainty for malware detection across multiple datasets, models, and feature
types. We show how ensembling and Bayesian treatments of machine learning
methods for static malware detection allow for improved identification of model
errors, uncovering of new malware families, and predictive performance under
extreme false positive constraints. In particular, we improve the true positive
rate (TPR) at an actual realized FPR of 1e-5 from an expected 0.69 for previous
methods to 0.80 on the best performing model class on the Sophos industry scale
dataset. We additionally demonstrate how previous works have used an evaluation
protocol that can lead to misleading results.
- Abstract(参考訳): マルウェアの検出は、コンピュータ環境の保護にとって重要な課題である。
このタスクでは、非常に低い偽陽性率(fpr)が0.01%以上必要となることが多い。
本稿では,複数のデータセット,モデル,特徴タイプにわたるマルウェア検出における不確実性の利用について,最初の広範囲な調査を行う。
静的マルウェア検出のための機械学習手法のセンセンシングとベイズ処理により、モデルエラーの同定、新しいマルウェアファミリーの発見、極端な偽陽性の制約下での予測性能が向上することを示す。
特に,実際に実現されているfprの1e-5の真の陽性率(tpr)を,従来手法の予測 0.69 から sophos 産業規模データセットのベストパフォーマンスモデルクラス 0.80 まで改善する。
さらに,過去の作業では,誤解を招く結果につながるような評価プロトコルをどのように使用してきたかを示す。
関連論文リスト
- Zero-day attack and ransomware detection [0.0]
本研究では,UGRansomeデータセットを用いて,ゼロデイおよびランサムウェア攻撃検出のための機械学習モデルのトレーニングを行う。
この結果は、ランダムフォレスト(RFC)、XGBoost、Ensemble Methodsが精度、精度、リコール、F1スコアで完璧にスコアを得たことを示している。
論文 参考訳(メタデータ) (2024-08-08T02:23:42Z) - PromptSAM+: Malware Detection based on Prompt Segment Anything Model [8.00932560688061]
本稿では,大規模な視覚ネットワークセグメンテーションモデルに基づいて,視覚マルウェアの汎用化分類フレームワークであるPromptSAM+を提案する。
実験の結果,「PromptSAM+」はマルウェアの検出・分類において有効かつ効果的であり,偽陽性・偽陰性で高い精度と低率を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-08-04T15:42:34Z) - Detecting new obfuscated malware variants: A lightweight and interpretable machine learning approach [0.0]
本稿では,高度に正確で軽量で解釈可能な,難読化マルウェアを検出する機械学習システムを提案する。
本システムでは,1つのマルウェアサブタイプ,すなわちSpywareファミリーのTransponderでのみ訓練されているにもかかわらず,15種類のマルウェアサブタイプを検出することができる。
トランスポンダー中心のモデルは99.8%を超え、平均処理速度はファイルあたり5.7マイクロ秒であった。
論文 参考訳(メタデータ) (2024-07-07T12:41:40Z) - Small Effect Sizes in Malware Detection? Make Harder Train/Test Splits! [51.668411293817464]
業界関係者は、モデルが数億台のマシンにデプロイされているため、マルウェア検出精度の小さな改善に気を配っている。
学術研究はしばしば1万のサンプルの順序で公開データセットに制限される。
利用可能なサンプルのプールから難易度ベンチマークを生成するためのアプローチを考案する。
論文 参考訳(メタデータ) (2023-12-25T21:25:55Z) - Creating Valid Adversarial Examples of Malware [4.817429789586127]
本稿では、強化学習アルゴリズムを用いて、敵のマルウェアの例を生成する。
PPOアルゴリズムを用いて,勾配型決定木(GBDT)モデルに対して53.84%の回避率を達成した。
機能保存型可搬性改造のランダムな適用は、主要なアンチウイルスエンジンを回避できる。
論文 参考訳(メタデータ) (2023-06-23T16:17:45Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - DRSM: De-Randomized Smoothing on Malware Classifier Providing Certified
Robustness [58.23214712926585]
我々は,マルウェア検出領域の非ランダム化スムース化技術を再設計し,DRSM(De-Randomized Smoothed MalConv)を開発した。
具体的には,実行可能ファイルの局所構造を最大に保ちながら,逆数バイトの影響を確実に抑制するウィンドウアブレーション方式を提案する。
私たちは、マルウェア実行ファイルの静的検出という領域で、認証された堅牢性を提供する最初の人です。
論文 参考訳(メタデータ) (2023-03-20T17:25:22Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Learn what you can't learn: Regularized Ensembles for Transductive
Out-of-distribution Detection [76.39067237772286]
ニューラルネットワークの現在のアウト・オブ・ディストリビューション(OOD)検出アルゴリズムは,様々なOOD検出シナリオにおいて不満足な結果をもたらすことを示す。
本稿では,テストデータのバッチを観察した後に検出方法を調整することで,このような「ハード」なOODシナリオがいかに有用かを検討する。
本稿では,テストデータと正規化に人工ラベリング手法を用いて,テストバッチ内のOODサンプルに対してのみ矛盾予測を生成するモデルのアンサンブルを求める手法を提案する。
論文 参考訳(メタデータ) (2020-12-10T16:55:13Z) - Adversarial EXEmples: A Survey and Experimental Evaluation of Practical
Attacks on Machine Learning for Windows Malware Detection [67.53296659361598]
EXEmplesは、比較的少ない入力バイトを摂動することで、機械学習に基づく検出をバイパスすることができる。
我々は、機械学習モデルに対する過去の攻撃を包含し、一般化するだけでなく、3つの新たな攻撃を含む統一フレームワークを開発する。
これらの攻撃はFull DOS、Extended、Shiftと呼ばれ、DOSヘッダをそれぞれ操作し、拡張し、第1セクションの内容を変更することで、敵のペイロードを注入する。
論文 参考訳(メタデータ) (2020-08-17T07:16:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。