論文の概要: Small Effect Sizes in Malware Detection? Make Harder Train/Test Splits!
- arxiv url: http://arxiv.org/abs/2312.15813v1
- Date: Mon, 25 Dec 2023 21:25:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 16:34:52.114572
- Title: Small Effect Sizes in Malware Detection? Make Harder Train/Test Splits!
- Title(参考訳): マルウェア検出における小さな効果サイズ?
ハードトレイン/テストスプリットを作れ!
- Authors: Tirth Patel, Fred Lu, Edward Raff, Charles Nicholas, Cynthia Matuszek,
James Holt
- Abstract要約: 業界関係者は、モデルが数億台のマシンにデプロイされているため、マルウェア検出精度の小さな改善に気を配っている。
学術研究はしばしば1万のサンプルの順序で公開データセットに制限される。
利用可能なサンプルのプールから難易度ベンチマークを生成するためのアプローチを考案する。
- 参考スコア(独自算出の注目度): 51.668411293817464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Industry practitioners care about small improvements in malware detection
accuracy because their models are deployed to hundreds of millions of machines,
meaning a 0.1\% change can cause an overwhelming number of false positives.
However, academic research is often restrained to public datasets on the order
of ten thousand samples and is too small to detect improvements that may be
relevant to industry. Working within these constraints, we devise an approach
to generate a benchmark of configurable difficulty from a pool of available
samples. This is done by leveraging malware family information from tools like
AVClass to construct training/test splits that have different generalization
rates, as measured by a secondary model. Our experiments will demonstrate that
using a less accurate secondary model with disparate features is effective at
producing benchmarks for a more sophisticated target model that is under
evaluation. We also ablate against alternative designs to show the need for our
approach.
- Abstract(参考訳): 業界の実践者は、モデルが数億台のマシンにデプロイされるため、マルウェア検出精度の小さな改善を気にしている。
しかし、学術研究は1万のサンプルの順序で公開データセットに制限されることが多く、産業に関係のある改善を検出するには小さすぎる。
これらの制約の中で、利用可能なサンプルのプールから構成可能な難易度のベンチマークを生成するためのアプローチを考案します。
これは、avclassのようなツールからのマルウェアファミリー情報を利用して、セカンダリモデルによって測定されるように、異なる一般化率のトレーニング/テスト分割を構築することによって行われる。
実験では,より高精度な評価対象モデルに対するベンチマーク作成に,より精度の低い二次モデルを用いることが有効であることを実証する。
アプローチの必要性を示す代替設計にも反対しています。
関連論文リスト
- PromptSAM+: Malware Detection based on Prompt Segment Anything Model [8.00932560688061]
本稿では,大規模な視覚ネットワークセグメンテーションモデルに基づいて,視覚マルウェアの汎用化分類フレームワークであるPromptSAM+を提案する。
実験の結果,「PromptSAM+」はマルウェアの検出・分類において有効かつ効果的であり,偽陽性・偽陰性で高い精度と低率を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-08-04T15:42:34Z) - Detecting new obfuscated malware variants: A lightweight and interpretable machine learning approach [0.0]
本稿では,高度に正確で軽量で解釈可能な,難読化マルウェアを検出する機械学習システムを提案する。
本システムでは,1つのマルウェアサブタイプ,すなわちSpywareファミリーのTransponderでのみ訓練されているにもかかわらず,15種類のマルウェアサブタイプを検出することができる。
トランスポンダー中心のモデルは99.8%を超え、平均処理速度はファイルあたり5.7マイクロ秒であった。
論文 参考訳(メタデータ) (2024-07-07T12:41:40Z) - Semi-supervised Classification of Malware Families Under Extreme Class Imbalance via Hierarchical Non-Negative Matrix Factorization with Automatic Model Selection [34.7994627734601]
マルウェアファミリーラベリングプロセスの初期段階で使用できる新しい階層型半教師付きアルゴリズムを提案する。
HNMFkでは、マルウェアデータの階層構造と半教師付き設定を併用し、極度のクラス不均衡の条件下でマルウェアファミリーを分類することができる。
我々のソリューションは、新しいマルウェアファミリーの同定において有望な結果をもたらす、断固とした予測または拒絶オプションを実行することができる。
論文 参考訳(メタデータ) (2023-09-12T23:45:59Z) - Multifamily Malware Models [5.414308305392762]
我々は、トレーニングデータセットの一般性と対応する機械学習モデルの精度との関係を定量化するために、バイト$n$-gramの機能に基づいた実験を行う。
近隣のアルゴリズムは驚くほどよく一般化され、他の機械学習手法よりもはるかに優れています。
論文 参考訳(メタデータ) (2022-06-27T13:06:31Z) - Leveraging Uncertainty for Improved Static Malware Detection Under
Extreme False Positive Constraints [21.241478970181912]
本研究では,静的マルウェア検出のための機械学習手法のアンサンブル処理とベイズ処理により,モデル誤りの同定精度が向上することを示す。
特に,本研究では,従来手法で期待されていた0.69から0.80まで,実際に実現された1e-5のFPRにおける真の正の率(TPR)を,Sophos業界スケールデータセット上で最高のモデルクラスで改善する。
論文 参考訳(メタデータ) (2021-08-09T14:30:23Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Adversarial Examples for Unsupervised Machine Learning Models [71.81480647638529]
回避予測を引き起こすアドリラルな例は、機械学習モデルの堅牢性を評価し改善するために広く利用されている。
教師なしモデルに対する逆例生成の枠組みを提案し,データ拡張への新たな応用を実証する。
論文 参考訳(メタデータ) (2021-03-02T17:47:58Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z) - Unsupervised Anomaly Detection with Adversarial Mirrored AutoEncoders [51.691585766702744]
本稿では,識別器のミラー化ワッサースタイン損失を利用して,よりセマンティックレベルの再構築を行う逆自動エンコーダの変種を提案する。
我々は,再建基準の代替として,異常スコアの代替尺度を提案した。
提案手法は,OOD検出ベンチマークにおける異常検出の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2020-03-24T08:26:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。