論文の概要: Malware Classification with Word Embedding Features
- arxiv url: http://arxiv.org/abs/2103.02711v1
- Date: Wed, 3 Mar 2021 21:57:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-07 21:08:09.379166
- Title: Malware Classification with Word Embedding Features
- Title(参考訳): 単語埋め込み機能を持つマルウェア分類
- Authors: Aparna Sunil Kale and Fabio Di Troia and Mark Stamp
- Abstract要約: 現代のマルウェア分類技術は、オプコードシーケンスなどの機能でトレーニングできる機械学習モデルに依存しています。
我々は、隠れマルコフモデルをトレーニングすることで特徴ベクトルを設計するハイブリッド機械学習手法を実装した。
さまざまなマルウェアファミリーについて実質的な実験を行っています。
- 参考スコア(独自算出の注目度): 6.961253535504979
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Malware classification is an important and challenging problem in information
security. Modern malware classification techniques rely on machine learning
models that can be trained on features such as opcode sequences, API calls, and
byte $n$-grams, among many others. In this research, we consider opcode
features. We implement hybrid machine learning techniques, where we engineer
feature vectors by training hidden Markov models -- a technique that we refer
to as HMM2Vec -- and Word2Vec embeddings on these opcode sequences. The
resulting HMM2Vec and Word2Vec embedding vectors are then used as features for
classification algorithms. Specifically, we consider support vector machine
(SVM), $k$-nearest neighbor ($k$-NN), random forest (RF), and convolutional
neural network (CNN) classifiers. We conduct substantial experiments over a
variety of malware families. Our experiments extend well beyond any previous
work in this field.
- Abstract(参考訳): マルウェア分類は情報セキュリティにおいて重要かつ困難な問題である。
現代のマルウェア分類技術は、オペコードシーケンス、API呼び出し、バイト$n$-gramなどの機能に基づいてトレーニングできる機械学習モデルに依存している。
本研究では、オプコードの特徴を検討する。
HMM2Vecと呼ばれるテクニックである隠れマルコフモデルをトレーニングし、これらのオプコードシーケンスにWord2Vecを埋め込み、特徴ベクトルを設計するハイブリッド機械学習技術を実装します。
得られたHMM2VecおよびWord2Vec埋め込みベクトルは、分類アルゴリズムの機能として使用されます。
具体的には、サポートベクターマシン(SVM)、$k$-NN($k$-NN)、ランダムフォレスト(RF)、および畳み込みニューラルネットワーク(CNN)分類器を検討します。
さまざまなマルウェアファミリーについて実質的な実験を行っています。
我々の実験は、この分野のこれまでのどの研究にも及ばない。
関連論文リスト
- Toward Multi-class Anomaly Detection: Exploring Class-aware Unified Model against Inter-class Interference [67.36605226797887]
統一型異常検出(MINT-AD)のためのマルチクラスインプリシトニューラル表現変換器を提案する。
マルチクラス分布を学習することにより、モデルが変換器デコーダのクラス対応クエリ埋め込みを生成する。
MINT-ADは、カテゴリと位置情報を特徴埋め込み空間に投影することができ、さらに分類と事前確率損失関数によって監督される。
論文 参考訳(メタデータ) (2024-03-21T08:08:31Z) - Enhancing Malware Detection by Integrating Machine Learning with Cuckoo
Sandbox [0.0]
本研究の目的は,APIコールシーケンスを含むデータセットから抽出されたマルウェアを分類し,同定することである。
ディープラーニングと機械学習の両方のアルゴリズムは、極めて高いレベルの精度を実現し、特定のケースでは最大99%に達する。
論文 参考訳(メタデータ) (2023-11-07T22:33:17Z) - Online Clustered Codebook [100.1650001618827]
オンラインコードブック学習のための簡単な代替手法であるClustering VQ-VAE(CVQ-VAE)を提案する。
弊社のアプローチでは、コード化された機能をアンカーとして選択し、デッドのコードベクタを更新すると同時に、元の損失によって生存しているコードブックを最適化する。
私たちのCVQ-VAEは、ほんの数行のコードで既存のモデルに簡単に統合できます。
論文 参考訳(メタデータ) (2023-07-27T18:31:04Z) - A Natural Language Processing Approach to Malware Classification [2.707154152696381]
本研究では,ハイドデンマルコフモデル (HMM) をオプコードシーケンスで訓練するハイブリッドアーキテクチャについて考察する。
HMMの隠された状態列を抽出することは、機能工学の一形態と見なすことができる。
このNLPベースのアプローチは、他の一般的なテクニックよりも優れていることが分かりました。
論文 参考訳(メタデータ) (2023-07-07T23:16:23Z) - Class-Incremental Learning: A Survey [84.30083092434938]
CIL(Class-Incremental Learning)は、学習者が新しいクラスの知識を段階的に取り入れることを可能にする。
CILは、前者の特徴を壊滅的に忘れる傾向にあり、その性能は劇的に低下する。
ベンチマーク画像分類タスクにおける17の手法の厳密で統一的な評価を行い、異なるアルゴリズムの特徴を明らかにする。
論文 参考訳(メタデータ) (2023-02-07T17:59:05Z) - Quality-Aware Decoding for Neural Machine Translation [64.24934199944875]
ニューラルネットワーク翻訳(NMT)のための品質認識復号法を提案する。
参照フリーおよび参照ベースMT評価における最近のブレークスルーを,様々な推論手法を用いて活用する。
品質認識復号化は、最先端の自動測定値と人的評価値の両方で、MAPベースの復号化を一貫して上回ります。
論文 参考訳(メタデータ) (2022-05-02T15:26:28Z) - Rethinking Nearest Neighbors for Visual Classification [56.00783095670361]
k-NNは、トレーニングセット内のテストイメージとトップk隣人間の距離を集約する遅延学習手法である。
我々は,教師付き手法と自己監督型手法のいずれでも,事前学習した視覚表現を持つk-NNを2つのステップで採用する。
本研究は,幅広い分類タスクに関する広範な実験により,k-NN統合の汎用性と柔軟性を明らかにした。
論文 参考訳(メタデータ) (2021-12-15T20:15:01Z) - HyperSeed: Unsupervised Learning with Vector Symbolic Architectures [5.258404928739212]
本稿では,Hyperseedという新しい教師なし機械学習手法を提案する。
VSA(Vector Symbolic Architectures)を活用して、問題のないデータのトポロジ保存機能マップを高速に学習する。
ハイパーシードアルゴリズムの2つの特徴的特徴は,1)少数の入力データサンプルから学習すること,2)1つのベクトル演算に基づく学習規則である。
論文 参考訳(メタデータ) (2021-10-15T20:05:43Z) - CNN vs ELM for Image-Based Malware Classification [3.4806267677524896]
マルウェア分類のための機械学習モデルを、分解やコードの実行なしに得られる特徴に基づいてトレーニングし、評価します。
ELMはCNNと同等の精度を達成できますが、ELMトレーニングは同等のCNNのトレーニングに必要な時間の2%未満を必要とします。
論文 参考訳(メタデータ) (2021-03-24T00:51:06Z) - A Comparison of Word2Vec, HMM2Vec, and PCA2Vec for Malware
Classification [3.0969191504482247]
まず、マルウェア分類のコンテキスト内で複数の異なる単語埋め込み技術を検討します。
我々は,様々な家系のマルウェアサンプルに対するオプコードシーケンスに基づく特徴埋め込みを導出する。
これらの特徴埋め込みに基づいて,より優れた分類精度が得られることを示す。
論文 参考訳(メタデータ) (2021-03-07T14:41:18Z) - Many-Class Few-Shot Learning on Multi-Granularity Class Hierarchy [57.68486382473194]
我々は,教師付き学習とメタ学習の両方において,MCFS(Multi-class few-shot)問題について検討した。
本稿では,クラス階層を事前知識として活用し,粗大な分類器を訓練する。
モデル「メモリ拡張階層分類ネットワーク(MahiNet)」は、各粗いクラスが複数の細かなクラスをカバーできる粗い粒度分類を行う。
論文 参考訳(メタデータ) (2020-06-28T01:11:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。