論文の概要: ML-Based Behavioral Malware Detection Is Far From a Solved Problem
- arxiv url: http://arxiv.org/abs/2405.06124v2
- Date: Thu, 06 Mar 2025 20:40:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:19:46.384398
- Title: ML-Based Behavioral Malware Detection Is Far From a Solved Problem
- Title(参考訳): 機械学習による行動マルウェア検出は、解決された問題とは程遠い
- Authors: Yigitcan Kaya, Yizheng Chen, Marcus Botacin, Shoumik Saha, Fabio Pierazzi, Lorenzo Cavallaro, David Wagner, Tudor Dumitras,
- Abstract要約: マルウェア検出は、セキュリティにおける機械学習(ML)のユビキタスな応用である。
デプロイメントでは、エンドポイントホストのマルウェア検出は、サンドボックスからではなく、エンドポイントホストから取得したトレースに依存する必要があることが多い。
実世界のエンドポイントにおけるMLベースのマルウェア検知器の性能を初めて測定する。
- 参考スコア(独自算出の注目度): 24.699642272580764
- License:
- Abstract: Malware detection is a ubiquitous application of Machine Learning (ML) in security. In behavioral malware analysis, the detector relies on features extracted from program execution traces. The research literature has focused on detectors trained with features collected from sandbox environments and evaluated on samples also analyzed in a sandbox. However, in deployment, a malware detector at endpoint hosts often must rely on traces captured from endpoint hosts, not from a sandbox. Thus, there is a gap between the literature and real-world needs. We present the first measurement study of the performance of ML-based malware detectors at real-world endpoints. Leveraging a dataset of sandbox traces and a dataset of in-the-wild program traces, we evaluate two scenarios: (i) an endpoint detector trained on sandbox traces (convenient and easy to train), and (ii) an endpoint detector trained on endpoint traces (more challenging to train, since we need to collect telemetry data). We discover a wide gap between the performance as measured using prior evaluation methods in the literature -- over 90% -- vs. expected performance in endpoint detection -- about 20% (scenario (i)) to 50% (scenario (ii)). We characterize the ML challenges that arise in this domain and contribute to this gap, including label noise, distribution shift, and spurious features. Moreover, we show several techniques that achieve 5--30% relative performance improvements over the baselines. Our evidence suggests that applying detectors trained on sandbox data to endpoint detection is challenging. The most promising direction is training detectors directly on endpoint data, which marks a departure from current practice. To promote progress, we will facilitate researchers to perform realistic detector evaluations against our real-world dataset.
- Abstract(参考訳): マルウェア検出は、セキュリティにおける機械学習(ML)のユビキタスな応用である。
行動マルウェア解析において、検出器はプログラム実行トレースから抽出された特徴に依存する。
研究文献は、サンドボックス環境から収集された特徴を訓練した検出器に焦点を当てており、サンドボックスで分析されたサンプルに基づいて評価されている。
しかしながら、デプロイメントでは、エンドポイントホストのマルウェア検出は、サンドボックスからではなく、エンドポイントホストから取得したトレースに依存する必要があることが多い。
したがって、文学と現実世界のニーズの間にはギャップがある。
実世界のエンドポイントにおけるMLベースのマルウェア検知器の性能を初めて測定する。
サンドボックストレースのデータセットとウィジェット内プログラムトレースのデータセットを利用することで、以下の2つのシナリオを評価する。
一 砂場跡(容易で訓練が容易なもの)に基づいて訓練された終端検出器
(2)エンドポイントトレースに基づいてトレーニングされたエンドポイント検出装置(テレメトリデータを収集する必要があるため、トレーニングがより難しい)。
文献における事前評価手法(90%以上)で測定されたパフォーマンスと、エンドポイント検出における期待されるパフォーマンス(約20%(シナリオ))の間には、幅広いギャップが見つかりました。
(i)から50%(scenario)
(II)。
この領域で発生するMLの課題を特徴付け、ラベルノイズ、分散シフト、スプリアス機能など、このギャップに寄与する。
さらに,ベースラインよりも5~30%の相対的な性能向上を実現する手法について述べる。
我々の証拠は、サンドボックスデータで訓練された検出器をエンドポイント検出に適用することは難しいことを示唆している。
最も有望な方向は、エンドポイントデータを直接検出するトレーニングである。
進歩を促進するため、研究者は実世界のデータセットに対して現実的な検出評価を行うよう促す。
関連論文リスト
- PARIS: A Practical, Adaptive Trace-Fetching and Real-Time Malicious Behavior Detection System [6.068607290592521]
本稿では,適応的トレースフェッチ,軽量かつリアルタイムな悪意ある行動検出システムを提案する。
具体的には、Event Tracing for Windows (ETW)で悪意ある振る舞いを監視し、悪意のあるAPIやコールスタックを選択的に収集することを学ぶ。
その結果、より広い範囲のAPIを監視し、より複雑な攻撃行動を検出することができる。
論文 参考訳(メタデータ) (2024-11-02T14:52:04Z) - DF40: Toward Next-Generation Deepfake Detection [62.073997142001424]
既存の研究は、ある特定のデータセットで検出器をトレーニングし、他の一般的なディープフェイクデータセットでテストすることで、トップノーチ検出アルゴリズムとモデルを識別する。
しかし、これらの「勝者」は現実の世界に潜む無数の現実的で多様なディープフェイクに取り組むために真に応用できるのだろうか?
我々は,40の異なるディープフェイク技術からなるDF40という,高度に多様なディープフェイク検出データセットを構築した。
論文 参考訳(メタデータ) (2024-06-19T12:35:02Z) - UncertaintyTrack: Exploiting Detection and Localization Uncertainty in Multi-Object Tracking [8.645078288584305]
マルチオブジェクトトラッキング(MOT)手法は近年,性能が大幅に向上している。
複数のTBDトラッカーに適用可能なエクステンションのコレクションであるUncertaintyTrackを紹介します。
バークレーディープドライブMOTデータセットの実験では、我々の手法と情報的不確実性推定の組み合わせにより、IDスイッチの数を約19%削減している。
論文 参考訳(メタデータ) (2024-02-19T17:27:04Z) - DeepfakeBench: A Comprehensive Benchmark of Deepfake Detection [55.70982767084996]
ディープフェイク検出の分野で見落とされがちな課題は、標準化され、統一され、包括的なベンチマークがないことである。
DeepfakeBenchと呼ばれる,3つの重要なコントリビューションを提供するディープフェイク検出のための,最初の包括的なベンチマークを提示する。
DeepfakeBenchには15の最先端検出方法、9CLデータセット、一連のDeepfake検出評価プロトコルと分析ツール、包括的な評価ツールが含まれている。
論文 参考訳(メタデータ) (2023-07-04T01:34:41Z) - Towards Building Self-Aware Object Detectors via Reliable Uncertainty
Quantification and Calibration [17.461451218469062]
本稿では,自己認識オブジェクト検出(SAOD)タスクを紹介する。
SAODタスクは、自律運転のような安全クリティカルな環境でオブジェクト検出器が直面する課題を尊重し、遵守する。
我々は、多数のオブジェクト検出器をテストするために、新しいメトリクスと大規模なテストデータセットを導入したフレームワークを広範囲に使用しています。
論文 参考訳(メタデータ) (2023-07-03T11:16:39Z) - A Bayesian Detect to Track System for Robust Visual Object Tracking and
Semi-Supervised Model Learning [1.7268829007643391]
ニューラルネットワークの出力によってパラメータ化されたベイズ追跡・検出フレームワークにおける副次的問題について述べる。
本稿では,粒子フィルタを用いた物体状態推定のための近似サンプリングアルゴリズムを提案する。
粒子フィルタ推論アルゴリズムを用いて,間欠的なラベル付きフレーム上でのトラッキングネットワークの学習に半教師付き学習アルゴリズムを用いる。
論文 参考訳(メタデータ) (2022-05-05T00:18:57Z) - Prepare for Trouble and Make it Double. Supervised and Unsupervised
Stacking for AnomalyBased Intrusion Detection [4.56877715768796]
メタラーニングを2層スタックの形で導入し、既知の脅威と未知の脅威の両方を検出する混合アプローチを提案する。
その結果、教師付きアルゴリズムよりもゼロデイ攻撃の検出に効果があり、主要な弱点は限定されているものの、既知の攻撃を検出するのに十分な能力を維持していることがわかった。
論文 参考訳(メタデータ) (2022-02-28T08:41:32Z) - Triggering Failures: Out-Of-Distribution detection by learning from
local adversarial attacks in Semantic Segmentation [76.2621758731288]
セグメンテーションにおけるアウト・オブ・ディストリビューション(OOD)オブジェクトの検出に取り組む。
私たちの主な貢献は、ObsNetと呼ばれる新しいOOD検出アーキテクチャであり、ローカル・アタック(LAA)に基づく専用トレーニングスキームと関連付けられています。
3つの異なるデータセットの文献の最近の10つの手法と比較して,速度と精度の両面で最高の性能が得られることを示す。
論文 参考訳(メタデータ) (2021-08-03T17:09:56Z) - Adversarial EXEmples: A Survey and Experimental Evaluation of Practical
Attacks on Machine Learning for Windows Malware Detection [67.53296659361598]
EXEmplesは、比較的少ない入力バイトを摂動することで、機械学習に基づく検出をバイパスすることができる。
我々は、機械学習モデルに対する過去の攻撃を包含し、一般化するだけでなく、3つの新たな攻撃を含む統一フレームワークを開発する。
これらの攻撃はFull DOS、Extended、Shiftと呼ばれ、DOSヘッダをそれぞれ操作し、拡張し、第1セクションの内容を変更することで、敵のペイロードを注入する。
論文 参考訳(メタデータ) (2020-08-17T07:16:57Z) - Detection as Regression: Certified Object Detection by Median Smoothing [50.89591634725045]
この研究は、ランダム化平滑化による認定分類の最近の進歩によって動機付けられている。
我々は、$ell$-bounded攻撃に対するオブジェクト検出のための、最初のモデル非依存、トレーニング不要、認定された防御条件を得る。
論文 参考訳(メタデータ) (2020-07-07T18:40:19Z) - Robust Spammer Detection by Nash Reinforcement Learning [64.80986064630025]
我々は,スパマーとスパム検知器が互いに現実的な目標を競うミニマックスゲームを開発する。
提案アルゴリズムは,スパマーが混在するスパマーが実用目標を達成するのを確実に防止できる平衡検出器を確実に見つけることができることを示す。
論文 参考訳(メタデータ) (2020-06-10T21:18:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。