論文の概要: Multifamily Malware Models
- arxiv url: http://arxiv.org/abs/2207.00620v1
- Date: Mon, 27 Jun 2022 13:06:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-07-10 13:18:23.223355
- Title: Multifamily Malware Models
- Title(参考訳): マルチファミリーマルウェアモデル
- Authors: Samanvitha Basole and Fabio Di Troia and Mark Stamp
- Abstract要約: 我々は、トレーニングデータセットの一般性と対応する機械学習モデルの精度との関係を定量化するために、バイト$n$-gramの機能に基づいた実験を行う。
近隣のアルゴリズムは驚くほどよく一般化され、他の機械学習手法よりもはるかに優れています。
- 参考スコア(独自算出の注目度): 5.414308305392762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When training a machine learning model, there is likely to be a tradeoff
between accuracy and the diversity of the dataset. Previous research has shown
that if we train a model to detect one specific malware family, we generally
obtain stronger results as compared to a case where we train a single model on
multiple diverse families. However, during the detection phase, it would be
more efficient to have a single model that can reliably detect multiple
families, rather than having to score each sample against multiple models. In
this research, we conduct experiments based on byte $n$-gram features to
quantify the relationship between the generality of the training dataset and
the accuracy of the corresponding machine learning models, all within the
context of the malware detection problem. We find that neighborhood-based
algorithms generalize surprisingly well, far outperforming the other machine
learning techniques considered.
- Abstract(参考訳): 機械学習モデルをトレーニングする場合、精度とデータセットの多様性の間にはトレードオフがある可能性が高い。
これまでの研究では、ある特定のマルウェアファミリーを検知するためにモデルをトレーニングすると、一般的に、複数の異なるファミリーで単一のモデルをトレーニングする場合と比較して、より強力な結果が得られることが示されている。
しかし、検出フェーズの間は、複数のモデルに対して各サンプルをスコア付けするよりも、確実に複数のファミリーを検出できる単一のモデルを持つ方が効率的である。
本研究では,学習データセットの汎用性と対応する機械学習モデルの精度の関係を,マルウェア検出問題の文脈内で定量化するために,バイト$n$-gramの特徴に基づく実験を行う。
近所のアルゴリズムは驚くほど一般化し、他の機械学習技術よりもはるかに優れています。
関連論文リスト
- Small Effect Sizes in Malware Detection? Make Harder Train/Test Splits! [51.668411293817464]
業界関係者は、モデルが数億台のマシンにデプロイされているため、マルウェア検出精度の小さな改善に気を配っている。
学術研究はしばしば1万のサンプルの順序で公開データセットに制限される。
利用可能なサンプルのプールから難易度ベンチマークを生成するためのアプローチを考案する。
論文 参考訳(メタデータ) (2023-12-25T21:25:55Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Decoding the Secrets of Machine Learning in Malware Classification: A
Deep Dive into Datasets, Feature Extraction, and Model Performance [25.184668510417545]
これまでに670世帯の67Kサンプル(それぞれ100サンプル)で、最大のバランスのとれたマルウェアデータセットを収集しました。
我々は、我々のデータセットを用いて、マルウェア検出と家族分類のための最先端モデルを訓練する。
以上の結果から,静的な特徴は動的機能よりも優れており,両者を組み合わせることで,静的な特徴よりも限界的な改善がもたらされることがわかった。
論文 参考訳(メタデータ) (2023-07-27T07:18:10Z) - Many tasks make light work: Learning to localise medical anomalies from
multiple synthetic tasks [2.912977051718473]
シングルクラスモデリングとアウト・オブ・ディストリビューション検出への関心が高まっている。
完全な教師付き機械学習モデルは、トレーニングに含まれていないクラスを確実に識別することはできない。
我々は,複数の視覚的に識別可能な合成異常学習タスクを,トレーニングと検証の両方に利用している。
論文 参考訳(メタデータ) (2023-07-03T09:52:54Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - QuantifyML: How Good is my Machine Learning Model? [0.0]
QuantifyMLは、機械学習モデルが与えられたデータから学習し、一般化した範囲を定量化することを目的としている。
この式は市販モデルカウンタを用いて解析し、異なるモデル挙動に関する正確な数を求める。
論文 参考訳(メタデータ) (2021-10-25T01:56:01Z) - Model-based micro-data reinforcement learning: what are the crucial
model properties and which model to choose? [0.2836066255205732]
我々は,マイクロデータモデルに基づく強化学習(MBRL)に寄与する。
マルチモーダルな後続予測を必要とする環境では、混合密度ネットは他のモデルよりも大きなマージンで優れていることがわかった。
また、決定論的モデルは同等であり、実際、確率論的モデルよりも一貫して(非目立ったことではないが)優れていることも見出した。
論文 参考訳(メタデータ) (2021-07-24T11:38:25Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。