論文の概要: A Comparison of Word2Vec, HMM2Vec, and PCA2Vec for Malware
Classification
- arxiv url: http://arxiv.org/abs/2103.05763v1
- Date: Sun, 7 Mar 2021 14:41:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-12 08:43:40.259281
- Title: A Comparison of Word2Vec, HMM2Vec, and PCA2Vec for Malware
Classification
- Title(参考訳): マルウェア分類のためのWord2Vec, HMM2Vec, PCA2Vecの比較
- Authors: Aniket Chandak and Wendy Lee and Mark Stamp
- Abstract要約: まず、マルウェア分類のコンテキスト内で複数の異なる単語埋め込み技術を検討します。
我々は,様々な家系のマルウェアサンプルに対するオプコードシーケンスに基づく特徴埋め込みを導出する。
これらの特徴埋め込みに基づいて,より優れた分類精度が得られることを示す。
- 参考スコア(独自算出の注目度): 3.0969191504482247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Word embeddings are often used in natural language processing as a means to
quantify relationships between words. More generally, these same word embedding
techniques can be used to quantify relationships between features. In this
paper, we first consider multiple different word embedding techniques within
the context of malware classification. We use hidden Markov models to obtain
embedding vectors in an approach that we refer to as HMM2Vec, and we generate
vector embeddings based on principal component analysis. We also consider the
popular neural network based word embedding technique known as Word2Vec. In
each case, we derive feature embeddings based on opcode sequences for malware
samples from a variety of different families. We show that we can obtain better
classification accuracy based on these feature embeddings, as compared to HMM
experiments that directly use the opcode sequences, and serve to establish a
baseline. These results show that word embeddings can be a useful feature
engineering step in the field of malware analysis.
- Abstract(参考訳): 単語の埋め込みはしばしば、単語間の関係を定量化する手段として自然言語処理で使用される。
より一般的に、これらの同じ単語埋め込み技術は特徴間の関係の定量化に利用できる。
本稿では,マルウェア分類の文脈において,複数の単語埋め込み手法を検討する。
私たちは隠れマルコフモデルを使用して、HMM2Vecと呼ばれるアプローチで埋め込みベクトルを取得し、主成分分析に基づいてベクトル埋め込みを生成します。
また、Word2Vecと呼ばれる一般的なニューラルネットワークベースの単語埋め込み技術も検討します。
いずれの場合も,様々な家系のマルウェアサンプルに対して,オプコードシーケンスに基づく特徴埋め込みを導出する。
本研究では,これらの特徴埋め込みに基づく分類精度の向上を,オプコードシーケンスを直接使用するHMM実験と比較し,ベースラインの確立に役立つことを示した。
これらの結果は,マルウェア解析の分野では,単語埋め込みが有用な機能工学的ステップであることを示す。
関連論文リスト
- A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Multi hash embeddings in spaCy [1.6790532021482656]
spaCyは、単語の複数埋め込み表現を生成する機械学習システムである。
SpaCyのデフォルトの埋め込み層は、ハッシュ埋め込み層である。
この技術レポートでは、いくつかの歴史を概説し、paCyに埋め込み手法を詳しく紹介します。
論文 参考訳(メタデータ) (2022-12-19T06:03:04Z) - Malware Classification with Word Embedding Features [6.961253535504979]
現代のマルウェア分類技術は、オプコードシーケンスなどの機能でトレーニングできる機械学習モデルに依存しています。
我々は、隠れマルコフモデルをトレーニングすることで特徴ベクトルを設計するハイブリッド機械学習手法を実装した。
さまざまなマルウェアファミリーについて実質的な実験を行っています。
論文 参考訳(メタデータ) (2021-03-03T21:57:11Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - Integration of Domain Knowledge using Medical Knowledge Graph Deep
Learning for Cancer Phenotyping [6.077023952306772]
本稿では,医学用語からの外部知識を単語埋め込みによって捉えた文脈に統合する手法を提案する。
提案手法は,Multitask Convolutional Neural Network (MT-CNN) を用いて,900Kの癌病理所見のデータセットから6つのがん特性を抽出する。
論文 参考訳(メタデータ) (2021-01-05T03:59:43Z) - R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic
Matching [58.72111690643359]
文意味マッチングのための関係学習ネットワーク(R2-Net)を提案する。
最初にBERTを使用して、グローバルな視点から入力文をエンコードします。
次に、cnnベースのエンコーダは、ローカルな視点からキーワードやフレーズ情報をキャプチャするように設計されている。
関係情報抽出にラベルを十分に活用するために,関係分類タスクの自己教師付き関係性を導入する。
論文 参考訳(メタデータ) (2020-12-16T13:11:30Z) - SChME at SemEval-2020 Task 1: A Model Ensemble for Detecting Lexical
Semantic Change [58.87961226278285]
本稿では,SemEval-2020 Task 1における語彙意味変化の教師なし検出法であるSChMEについて述べる。
SChMEは、分布モデル(単語埋め込み)とワード周波数モデルの信号を組み合わせたモデルアンサンブルを使用し、各モデルは、その特徴に応じて単語が苦しむ確率を示す投票を行う。
論文 参考訳(メタデータ) (2020-12-02T23:56:34Z) - Robust and Consistent Estimation of Word Embedding for Bangla Language
by fine-tuning Word2Vec Model [1.2691047660244335]
単語ベクトルを学習するための word2vec モデルを解析し,バングラ語に最も効果的な単語埋め込みを提案する。
我々は,単語ベクトルをクラスタ化して,単語の関連性について固有の評価を行うとともに,ニュース記事の特徴として異なる単語埋め込みを用いる。
論文 参考訳(メタデータ) (2020-10-26T08:00:48Z) - On the Learnability of Concepts: With Applications to Comparing Word
Embedding Algorithms [0.0]
セマンティックコンテンツを共有した単語の一覧として「概念」の概念を導入する。
まず、この概念を用いて、事前訓練された単語埋め込みにおける概念の学習可能性を測定する。
そこで我々は,様々な埋め込みアルゴリズムの相対的メリットを比較するために,仮説テストとROC曲線に基づく概念学習可能性の統計的解析を開発した。
論文 参考訳(メタデータ) (2020-06-17T14:25:36Z) - A Comparative Study of Lexical Substitution Approaches based on Neural
Language Models [117.96628873753123]
本稿では,一般的なニューラル言語とマスキング言語モデルの大規模比較研究について述べる。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによって達成された既に競合する結果をさらに改善できることを示す。
論文 参考訳(メタデータ) (2020-05-29T18:43:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。