論文の概要、ライセンス

# (参考訳) GMM-HMMモデルを用いたマルウェア分類 [全文訳有]

Malware Classification with GMM-HMM Models ( http://arxiv.org/abs/2103.02753v1 )

ライセンス: CC BY 4.0
Jing Zhao and Samanvitha Basole and Mark Stamp(参考訳) 離散隠れマルコフモデル(HMM)は、しばしばマルウェアの検出や分類問題に適用される。 しかし、離散HMM、すなわちガウス混合モデル-HMM(GMM-HMM)の連続アナログは、サイバーセキュリティの分野ではめったに考えられません。 本稿では,GMM-HMMをマルウェア分類に用いた結果と,離散HMMを用いた結果を比較した。 特徴として,オプコード列とエントロピー系列を考える。 GMM-HMMは離散HMMに匹敵する結果が得られるのに対し、エントロピーに基づく特徴では、GMM-HMMは一般に、離散HMMで達成した分類結果よりも大幅に改善される。

Discrete hidden Markov models (HMM) are often applied to malware detection and classification problems. However, the continuous analog of discrete HMMs, that is, Gaussian mixture model-HMMs (GMM-HMM), are rarely considered in the field of cybersecurity. In this paper, we use GMM-HMMs for malware classification and we compare our results to those obtained using discrete HMMs. As features, we consider opcode sequences and entropy-based sequences. For our opcode features, GMM-HMMs produce results that are comparable to those obtained using discrete HMMs, whereas for our entropy-based features, GMM-HMMs generally improve significantly on the classification results that we have achieved with discrete HMMs.
公開日: Wed, 3 Mar 2021 23:23:48 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 r a M 3 ] R C . 1 2 0 2 r a m 3 ] r c である。 0.77
s c [ 1 v 3 5 7 2 0 . s c [ 1 v 3 5 7 2 0 . 0.85
3 0 1 2 : v i X r a 3 0 1 2 : v i X r a 0.85
Malware Classification with GMM-HMM Models GMM-HMMモデルを用いたマルウェア分類 0.59
Jing Zhao* Jing Zhao*。 0.90
Samanvitha Basole† March 5, 2021 サマンビタ・バソレ 2021年3月5日 0.70
Mark Stamp‡ Abstract マーク・スタンプ 概要 0.56
Introduction Discrete hidden Markov models (HMM) are often applied to malware detection and classification problems. はじめに 離散隠れマルコフモデル(HMM)は、しばしばマルウェアの検出や分類問題に適用される。 0.64
However, the continuous analog of discrete HMMs, that is, Gaussian mixture model-HMMs (GMM-HMM), are rarely considered in the field of cybersecurity. しかし、離散HMM、すなわちガウス混合モデル-HMM(GMM-HMM)の連続アナログは、サイバーセキュリティの分野ではめったに考えられません。 0.76
In this paper, we use GMM-HMMs for malware classification and we compare our results to those obtained using discrete HMMs. 本稿では,GMM-HMMをマルウェア分類に用いた結果と,離散HMMを用いた結果を比較した。 0.78
As features, we consider opcode sequences and entropy-based sequences. 特徴として,オプコード列とエントロピー系列を考える。 0.63
For our opcode features, GMM-HMMs produce results that are comparable to those obtained using discrete HMMs, whereas for our entropy-based features, GMM-HMMs generally improve significantly on the classification results that we have achieved with discrete HMMs. GMM-HMMは離散HMMに匹敵する結果が得られるのに対し、エントロピーに基づく特徴では、GMM-HMMは一般に、離散HMMで達成した分類結果よりも大幅に改善される。 0.83
1 Due to COVID-19, businesses and schools have moved their work online and some consider the possibility of going online permanently. 1 新型コロナウイルス(COVID-19)のため、企業や学校は仕事をオンラインに移行し、永久にオンラインになる可能性を考えている。
訳抜け防止モード: 1 COVID-19 による。 企業や学校は 仕事をオンラインに移行し 永遠のオンライン化の可能性を考える人もいます
0.66
This trend makes cybersecurity more important than ever before. この傾向は、サイバーセキュリティをこれまで以上に重要にします。 0.56
Malicious software, or malware, is designed to steal private information, delete sensitive data without consent, or otherwise disrupt computer systems. 悪意のあるソフトウェア(マルウェア)は、個人情報を盗み、同意なしに機密データを削除したり、コンピュータシステムを破壊するように設計されている。
訳抜け防止モード: 悪意あるソフトウェア(マルウェア)がデザインされる 個人情報を盗んだり 機密データを無断で削除したり コンピュータシステムを破壊したり
0.74
The study of malware has been active for decades (Milosevic, 2013). マルウェアの研究は数十年にわたって活発に行われている(milosevic, 2013)。 0.65
Malware detection and classification are fundamental research topics in malware. マルウェアの検出と分類は、マルウェアの基本的な研究テーマです。 0.57
Traditionally, signature detection has been the most prevalent method for detecting malware, but recently, machine learning techniques have proven their worth, especially for dealing with advanced types of malware. 伝統的に、シグネチャ検出はマルウェアを検出する最も一般的な方法だったが、最近では機械学習技術が、特に高度なタイプのマルウェアを扱う上でその価値を証明している。 0.66
Many machine learning approaches have been applied to the malware problem, including hidden Markov models (HMM) (Stamp, 2018), k-nearest neighbors (KNN) (Ben Abdel Ouahab et al , 2020), support vector machines (SVM) (Kruczkowski and Szynkiewicz, 2014), and a wide variety of neural networking and deep learning techniques (Kalash et al , 2018). 隠れマルコフモデル (HMM) (Stamp, 2018)、k-nearest neighbors (KNN) (Ben Abdel Ouahab et al , 2020)、サポートベクターマシン (SVM) (Kruczkowski and Szynkiewicz, 2014)、幅広いニューラルネットワークとディープラーニング技術 (Kalash et al , 2018) など、多くの機械学習アプローチがマルウェア問題に適用されている。 0.68
Each machine learning technique has its own advantages and disadvantages. 各機械学習技術には、独自のメリットとデメリットがある。 0.70
It is not the case that one technique is best for all circumstances, since there are many different types of malware and many different features that can be considered. さまざまな種類のマルウェアやさまざまな特徴が考慮されているため、あらゆる状況においてひとつのテクニックが最善であるとは限らない。 0.83
Thus, it is useful to explore different techniques and algorithms in an effort to extend our knowledge base for effectively dealing with malware. したがって、マルウェアを効果的に扱うための知識基盤を拡張するために、さまざまな技術やアルゴリズムを調べることが有用です。 0.72
In this paper, we focus on Gaussian mixture model-hidden Markov models (GMM-HMMs), which can be viewed as the continuous analog of the ever-popular discrete HMM. 本稿では, ガウス混合モデル隠れマルコフモデル (GMM-HMM) に着目し, 常人気の離散HMMの連続的な類似と見なすことができる。 0.85
Discrete HMMs are well known for their ability to learn important statistical properties from a sequence of observations. 離散HMMは、一連の観測から重要な統計特性を学ぶ能力でよく知られている。 0.76
For a sequence of discrete observations, such as the letters that comprise a selection of English text, we can train a discrete HMM to determine the parameters of the (discrete) probability distributions that underlie the training data. 英語テキストの選択を構成する文字のような、離散的な観測のシーケンスに対して、離散hmmを訓練して、トレーニングデータの基礎となる(離散)確率分布のパラメータを決定することができる。 0.81
However, some observation sequences are inherently continuous, such as signals extracted from speech. しかしながら、一部の観測シーケンスは、音声から抽出された信号など、本質的に連続である。 0.56
In such cases, a discrete HMM is not the ideal tool. そのような場合、離散HMMは理想的なツールではない。 0.75
While we can discretize a continuous signal, there will be some loss of information. 連続した信号を識別することはできるが、情報の損失はあるだろう。 0.70
As an alternative to discretization, we can attempt to model the continuous probability density functions that underlie continuous training data. 離散化の代替として,連続学習データに基づく連続確率密度関数のモデル化を試みることができる。 0.89
Gaussian mixture models (GMM) are probability density functions that are represented by weighted sums of Gaussian distributions (Reynolds, 2015). ガウス混合モデル(GMM)は、ガウス分布の重み付き和で表される確率密度関数である(Reynolds, 2015)。 0.77
By varying the number of Gaussian components ガウス成分の数を変えることで 0.70
*jing.zhao@sjsu.edu †s97basole@gmail.com ‡mark.stamp@sjsu.edu ※jing.zhao@sjsu.edu .s97basole@gmail.com .mark.stamp@sjsu.edu 0.49
1 1 0.85
英語(論文から抽出)日本語訳スコア
and the weight assigned to each, GMMs can effectively model a wide variety of continuous probability distributions. そして各々に割り当てられた重量、GMMは効果的にいろいろ連続的な確率の配分をモデル化できます。 0.73
It is possible to train HMMs to learn the parameters of GMMs, and the resulting GMM-HMM models are frequently used in speech recognition (Rabiner, 1989; Bansal et al , 2008), among many other applications. GMMのパラメータを学習するためにHMMを訓練することは可能であり、結果として得られるGMM-HMMモデルは音声認識において頻繁に使用される(Rabiner, 1989; Bansal et al , 2008)。 0.85
In the field of cybersecurity, GMMs have been used, for example, as a clustering method for malware classification (Interrante-Grant and Kaeli, 2018). サイバーセキュリティの分野では、マルウェア分類のためのクラスタリング手法としてGMMが使用されている(Interrante-Grant と Kaeli, 2018)。 0.77
However, to the best of our knowledge, GMM-HMMs are not frequently considered in the context of malware detection or classification. しかし、私たちの知る限りでは、GMM-HMMはマルウェアの検出や分類の文脈ではしばしば考慮されません。 0.67
In this paper, we apply GMM-HMMs to the malware classification problem, and we compare our results to discrete HMMs. 本稿では,マルウェア分類問題にGMM-HMMを適用し,その結果を個別のHMMと比較する。 0.84
Our results indicate that GMM-HMMs applied to continuous data can yield strong results in the malware domain. その結果,GMM-HMMが連続データに適用され,マルウェア領域に強い結果をもたらす可能性が示唆された。 0.61
The remainder of this paper is organized as follows. 本論文の残りは以下のとおり整理される。 0.81
In Chapter 2, we discuss relevant related work. 第2章では関連する作業について論じる。 0.75
Chapter 3 provides background on the various models considered, namely, GMMs, HMMs, and GMM-HMMs, with the emphasis on the latter. 第3章は、GMM、HMM、GMM-HMMなど、検討された様々なモデルに関する背景を提供し、後者に重点を置いている。 0.64
Malware classification experiments and results based on discrete features are discussed in Chapter 4. 第4章では、マルウェア分類実験と離散的特徴に基づく結果について論じる。 0.68
Since GMM-HMMs are more suitable for continuous observations, in Chapter 4 we also present a set of malware classification experiments based on continuous entropy features. GMM-HMMは連続的な観測に適しているため、第4章では連続的なエントロピーの特徴に基づくマルウェア分類実験も提示する。 0.77
We conclude the paper and provide possible directions for future work in Chapter 5. 第5章では,論文をまとめ,今後の作業の方向性について述べる。 0.61
2 Related Work A Gaussian mixture model (GMM) is a probability density model (McLachlan and Peel, 2004) consisting of a weighted sum of multiple Gaussian distributions. 2 関連作業 ガウス混合モデル(GMM)は、複数のガウス分布の重み付き合計からなる確率密度モデル(McLachlan and Peel, 2004)である。 0.80
The advantage of a Gaussian mixture is that it can accurately model a variety of probability distributions (Gao et al , 2020). ガウス混合物の利点は、様々な確率分布を正確にモデル化できることである(Gao et al , 2020)。 0.82
That is, a GMM enables us to model a much more general distribution, as compared to a single Gaussian. すなわち、GMMは単一のガウスよりもはるかに一般的な分布をモデル化することができる。 0.68
Although the underlying distribution may not be similar to a Guassian, the combination of several Gaussians yields a robust model (Alfakih et al , 2020). 基礎となる分布はグアシアンと似ていないかもしれないが、いくつかのガウシアンの組み合わせはロバストモデル(alfakih et al , 2020)を生成する。 0.61
However, the more Gaussians that comprise a model, the costly the calculation involving the model. しかし、モデルを構成するガウス数が多いほど、モデルを含む計算は高価になります。 0.72
One example of the use of GMMs is distribution estimation of wave elevation in the field of oceanography (Gao et al , 2020). GMMの使用例の1つは、海洋学の分野における波高の分布推定である(Gao et al , 2020)。 0.84
GMMs have also been used in the fields of anomaly detection (Chen and Wu, 2019), and signal mapping (Raitoharju et al , 2020). GMMは異常検出(Chen and Wu, 2019)や信号マッピング(Raitoharju et al, 2020)の分野でも使用されています。 0.75
As another example, in (Qiao et al , 2019), a GMM is used as a classification method to segment brain lesions. もう一つの例として (Qiao et al , 2019) では、GMM が脳病変の分類法として用いられる。 0.83
In addition to distribution estimation, GMMs form the basis for a clustering method in (Gallop, 2006). 分布推定に加えて、GMMはクラスタリング方法の基礎を形成する(Gallop, 2006)。 0.73
As the name suggests, a discrete hidden Markov model (HMM) includes a “hidden” Markov process and a series of observations that are probabilistically related to the hidden states. 名前が示すように、離散隠れマルコフモデル(hmm)には「隠れた」マルコフ過程と、隠れた状態と確率的に関連した一連の観測が含まれる。 0.73
An HMM can be trained based on an observation sequence, and the resulting model can be used to score other observation sequences. HMMは観察シーケンスに基づいて訓練することができ、その結果モデルは他の観測シーケンスを採点するために使用することができる。 0.76
HMMs have found widespread use in signal processing, and HMMs are particularly popular in the area of speech recognition (Guoning Hu and DeLiang Wang, 2004). HMMは信号処理に広く使われており、HMMは音声認識の分野で特に人気がある(Guoning Hu と Deliang Wang, 2004)。 0.74
Due to their robustness and the efficiency, HMMs are also widely used in medical areas, such as sepsis detection (Stanculescu et al , 2014) and human brain studies based on functional magnetic resonance imaging (Dang et al , 2017). その堅牢性と効率性のために、HMMは敗血症検出(Stanculescu et al , 2014)や機能磁気共鳴イメージング(Dang et al , 2017)に基づく人間の脳研究などの医療分野でも広く使用されています。 0.77
Motion recognition is another area where HMMs play a vital role; specific examples include recognizing dancing moves (Laraba and Tilmanne, 2016) and 3D gestures (Truong and Zaharia, 2017). 動き認識(Motion Recognition)は、HMMが重要な役割を果たす分野のひとつで、ダンスの動きを認識する(Laraba and Tilmanne, 2016)と3Dジェスチャー(Truong and Zaharia, 2017)。 0.78
Gaussian mixture model-HMMs (GMM-HMM) are also widely used in classification problems. ガウス混合HMM(GMM-HMM)も分類問題に広く用いられている。 0.70
Given the flexibility of GMMs, GMM-HMMs are popular for dealing with complex patterns underlying sequences of observations. GMMの柔軟性を考えると、GMM-HMMは観測シーケンスの下の複雑なパターンを扱うのに人気がある。 0.63
For example, Yao et al (Yao et al , 2020) use GMM-HMMs to classify network traffic from different protocols. たとえば、Yao et al(Yao et al, 2020)はGMM-HMMを使用して異なるプロトコルからのネットワークトラフィックを分類します。 0.78
GMM-HMMs have also been used in motion detection—for complex poses, GMM-HMMs outperform discrete HMMs (Zhang et al , 2020). GMM-HMMは複雑なポーズの検出にも使用され、GMM-HMMは離散HMMよりも優れています(Zhang et al , 2020)。 0.61
3 Background In this section, we first introduce the learning techniques used in this paper—specifically, we discuss Gaussian mixture models, HMMs, and GMM-HMMs. 3 背景 このセクションでは、まず本論文で用いる学習技術について紹介します。具体的には、ガウス混合モデル、HMM、GMM-HMMについて説明します。
訳抜け防止モード: 3 背景 本項ではまず,本論文で使用される学習手法について紹介する。 ガウス混合モデル、HMM、GMM-HMMについて論じる。
0.73
We then discuss GMM-HMMs in somewhat more detail, including various training and parameter selection issues, and we provide an illustrative example of GMM-HMM training. 続いて,GMM-HMMのパラメータ選択問題を含むGMM-HMMについてより詳細に検討し,GMM-HMMトレーニングの具体例を示す。 0.75
2 2 0.85
英語(論文から抽出)日本語訳スコア
3.1 Gaussian Mixture Models As mentioned above, a GMM is a probabilistic model that combines multiple Gaussian distributions. 3.1 ガウス混合モデル 上記のように、GMM は複数のガウス分布を組み合わせた確率モデルである。 0.80
Mathematically, the probability density function of a GMM is a weighted sum of M Gaussian probability density functions. 数学的には、GMM の確率密度関数は M ガウス確率密度関数の重み付き和である。 0.82
The formulation of a GMM can be written as (Fraley and Raftery, 2002) GMMの定式化は (Fraley and Raftery, 2002) と書くことができる。 0.81
P(x|λ) = ωi g(x|µi,Σi), P(x|λ) = ωi g(x|μi,\i) 0.86
M ∑ x=i M は x=i である。 0.40
where x is a D-dimensional vector and ωi is the weight assigned to the ith Gaussian component, with the mixture weights summing to one. x が d-次元ベクトルで ωi が ith ガウス成分に割り当てられた重みであり、混合重みは 1 に収束する。 0.74
Here, µi and Σi are the mean and the covariance matrix of the ith component of the GMM, respectively. ここで、μi と Σi はそれぞれ GMM の i 成分の平均と共分散行列である。 0.74
Each component of a GMM is a multivariate Gaussian distribution of the form GMMの各成分は、フォームの多変量ガウス分布である。 0.78
g(x|µi,Σi) = g(x|μi,\i) = 0.83
1 2 |Σi| 1 D 2 1 2 |Σi| 1 D 2 0.82
(2π) e− 1 2 (x−µi)(cid:48)Σ−1 i (2π) e−1 2 (x−μi)(cid:48) ^ 1 i 0.83
(x−µi). 3.2 Discrete HMM In this paper, we use the notation in Table 1 to describe a discrete HMM. (x−μi)。 3.2 離散HMM この論文では、表1の表記法を用いて離散HMMを記述する。 0.74
This notation is essentially the same as that given in (Stamp, 2018). この表記法は基本的に(Stamp, 2018)与えられたものと同じです。 0.75
An HMM, which we denote as λ, is defined by the matrices A, B, and π, and hence we have λ = (A,B,π). λ を表す HMM は A, B, π 行列によって定義され、したがって λ = (A,B,π) を持つ。 0.66
Table 1: Discrete HMM notation 表1:離散HMM表記法 0.84
Notation Explanation T O N K Q V π A B 表記 解説 T O N K Q V π A B 0.68
Length of the observation sequence Observation sequence, O0,O1, . 観察順序の観察順序の長さ、O0、O1、等。 0.74
. . ,OT−1 Number of states in the model Number of distinct observation symbols Distinct states of the Markov process, q0,q1, . . . ,OT−1 モデルにおける状態の数 異なる観測記号の数 マルコフ過程の固有状態 q0,q1, . 0.82
. . ,qN−1 Observable symbols, assumed to be 0,1, . . . ,qN−1 Observable symbols,sumed to 0,1, 。 0.84
. . ,K − 1 Initial state distribution, 1× N State transition probabilities, N × N Observation probability matrix, N × K . . ,K − 1 初期状態分布、1× N 状態遷移確率、N× N 観測確率行列、N× K 0.82
We denote the elements in row i and column j of A as ai j. A の列 i と列 j の要素を ai j として表現します。 0.80
The element ai j of the A matrix is A 行列の要素 ai j は 0.57
given by ai j = P(state q j at t + 1| state qi at t). 与えられた ai j = P (状態 q j at t + 1| state qi at t)。 0.78
The (i, j) element of B is denoted in a slightly unusual form as bi( j). B の (i, j) 元は bi( j) としてわずかに特異な形で表される。 0.80
In a discrete HMM, row i of B represents the (discrete) probability distribution of the observation symbols when underlying Markov process is in (hidden) state i. Specifically, each element of B = {bi( j)} matrix is given by 離散 HMM において、B の行 i は、根底にあるマルコフ過程が(隠れた)状態 i にあるときの観測記号の(離散的な)確率分布を表している。
訳抜け防止モード: 離散 HMM において、B の行 i は、根底にあるマルコフ過程が(隠された)状態にあるときの観測記号の (離散 ) 確率分布を表す。 B = { bi (j ) } 行列の各要素は、 によって与えられる。
0.81
bi( j) = P(observation j at t | state qi at t). bi(j) = P(observation j at t | state qi at t) である。 0.89
The HMM formulation can be used to is solve the following three problems (Stamp, 2018). HMMの定式化は以下の3つの問題を解決するのに利用できる(Stamp, 2018)。 0.72
1. Given an observation sequence O and a model λ of the form λ = (π,A,B), calculate the probability of the observation sequence. 1. 観測シーケンス o と λ = (π,a,b) の形をしたモデル λ が与えられると、観測シーケンスの確率を計算する。 0.83
That is, we can score an observation sequence against a given model. つまり、与えられたモデルに対して観測シーケンスをスコアすることができる。 0.70
2. Given a model λ = (π,A,B) and an observation sequence O, find the “best” state sequence, where best is defined to be the sequence that maximizes the expected number of correct states. 2. モデル λ = (π,A,B) と観測シーケンス O が与えられたとき、「最良の」状態列を見つける。
訳抜け防止モード: 2. モデル λ = (π, A, B) が与えられる。 観察シーケンスOは、"最高の"状態シーケンスを見つけます。 最良の状態は 期待される正しい状態の数を最大化するシーケンスと定義されます
0.83
That is, we can uncover the hidden state sequence. つまり、隠れた状態シーケンスを明らかにすることができる。 0.65
3. Given an observation sequence O, determine a model λ = (A,B,π) that maximizes P(O |λ). 3. 観測列 O を与えられたら、P(O |λ) を最大化するモデル λ = (A,B,π) を決定する。 0.87
That is, we can train a model for a given observation sequence. すなわち、与えられた観測シーケンスのモデルをトレーニングすることができる。 0.77
In this research, we are interested in problems 1 and 3. 本研究では,問題1と問題3に関心を持つ。 0.81
Specifically, we train models, then we test the resulting models by scoring observation sequences. 具体的には、モデルをトレーニングし、結果のモデルを観測シーケンスのスコアリングによってテストする。 0.64
The solution to problem 2 is of interest in various NLP applications, for example. 問題2の解決策は、例えば、さまざまなNLPアプリケーションに関心があります。 0.80
For the sake of brevity, we omit the details of training and scoring with discrete HMMs; see (Stamp, 2018) or (Rabiner, 1989) for more information. 簡潔さのために、私たちは離散的なHMMでトレーニングと得点の詳細を省略します。詳細については、(Stamp, 2018)または(Rabiner, 1989)を参照してください。 0.67
3 3 0.85
英語(論文から抽出)日本語訳スコア
3.3 GMM-HMM The structure of a GMM-HMM is similar to that of a discrete HMM. 3.3 GMM-HMM GMM-HMMの構造は離散HMMの構造と類似している。 0.80
However, in a GMM-HMM, the B matrix is much different, since we are dealing with a mixture of (continuous) Gaussian distributions, rather than the discrete probability distributions a discrete HMM. しかし、GMM-HMMでは、離散確率分布が離散HMMではなく(連続的な)ガウス分布の混合物を扱うため、B行列ははるかに異なる。 0.74
In a GMM-HMM, the probability of an observation at a given state is determined by a probability density function that is defined by a GMM. GMM-HMMでは、所定の状態における観測の確率は、GMMで定義される確率密度関数によって決定される。 0.90
Specifically, the probability density function of observation Ot when the model is in state i is given by 具体的には、モデルが状態 i にあるときの観測 Ot の確率密度関数が与えられる。 0.89
(1) M ∑ m=1 for i ∈ {1,2, . (1) i ∈ {1,2, . に対して m=1 である。 0.73
. . ,N} and t ∈ {0,1, . . . , N} と t ∈ {0,1, . 0.88
. . ,T − 1, where . . ,T − 1 である。 0.85
Pi(Ot ) = cimg(Ot |µim,Σim), Pi(Ot ) = cimg(Ot |μim,Σim) 0.89
M ∑ m=1 cim = 1 for i ∈ {1,2, . M=1。 cim = 1 for i ∈ {1,2, 。 0.87
. . ,N}. Here, M is the number of Gaussian mixtures components, cim is the mixture coefficient or the weight of mth Gaussian mixture at state i, while µim and Σim are the mean vector and covariance matrix for the mth Gaussian mixture at state i. . . ,N。 ここで、M はガウス混合成分の数、cim は状態 i におけるmth Gaussian混合の混合係数または重量、μim と Σim は状態 i におけるmth Gaussian混合の平均ベクトルおよび共分散行列である。 0.78
We can rewrite g in equation (1) as e− 1 2 (Ot−µim)(cid:48)Σ−1 g を式(1) で e− 1 2 (ot−μim)(cid:48)σ−1 と書き直すことができる。 0.66
im (Ot−µim), im (Ot-μim) 0.74
g(Ot |µim,Σim) = g(Ot |μim,Σim) = 0.88
1 2 |Σim| 1 D 2 1 2 |Σim| 1 D 2 0.82
(2π) where D is the dimension of each observation. (2π) ここで D はそれぞれの観測の次元である。 0.84
In a GMM-HMM, the A and π matrices are the same as in a discrete HMM. GMM-HMM では、A と π の行列は離散 HMM と同じである。 0.71
The notation for a GMM-HMM is given in Table 2. GMM-HMMの表記法は表2に示す。 0.75
This is inherently more complex than a discrete HMM, due to the presence of the M Gaussian distributions. これは本質的には、M ガウス分布が存在するため、離散 HMM よりも複雑である。 0.75
Note that a GMM-HMM is defined by the 5-tuple GMM-HMM は 5 タプルで定義されます。 0.77
λ = (A,π,c,µ,Σ). λ = (a,π,c,μ,σ) である。 0.90
Table 2: GMM-HMM notation 表2:GMM-HMM表記法 0.69
Notation Explanation T O N M D π A c µ Σ 表記 解説 T O N M D π A c μ である。 0.69
Length of the observation sequence Observation sequence, O0,O1, . 観察順序の観察順序の長さ、O0、O1、等。 0.74
. . ,OT−1 Number of states in the model Number of Gaussian components Dimension of each observation Initial state distribution, 1× N State transition matrix, N × N Gaussian mixture weight at each state, N × M Means of Gaussians at each state, N × M × D Covariance of Gaussian mixtures, N × M × D× D . . ,ot-1 観測初期状態分布の各ガウス成分次元のモデル数, 1× n状態遷移行列, n× n ガウス混合重み, n × m × d 状態のガウス的平均, n × m × d のガウス混合の共分散, n × m × d × d である。 0.81
Analogous to a discrete HMM, we can solve the same three problems with a GMM-HMM. 離散HMMと類似して、GMM-HMMで同じ3つの問題を解くことができる。 0.72
However, the process used for training and scoring with a GMM-HMM differ significantly as compared to a discrete HMM. しかしながら、GMM-HMMの訓練と得点に用いられるプロセスは、離散HMMと比較して有意に異なる。 0.72
3.4 GMM-HMM Training and Scoring To use a GMM-HMM to classify malware samples, we need to train a model, then use the resulting model to score samples—see the discussion of problems 1 and 3 in Section 3.2, above. 3.4 GMM-HMMトレーニングとスコアリング マルウェアサンプルを分類するためにGMM-HMMを使用するには、モデルをトレーニングし、その結果のモデルを使用してサンプルをスコアする必要があります。 0.75
In this section, we discuss scoring and training in the context of a GMM-HMM in some detail. 本稿では,GMM-HMMの文脈におけるスコアリングとトレーニングについて詳述する。 0.74
We begin with the simpler problem, which is scoring. 私たちは、スコアリングである単純な問題から始めます。 0.67
3.4.1 GMM-HMM Scoring Given a GMM-HMM, which is defined by the 5-tuple of matrices λ = (A,π,c,µ,Σ), and a sequence of observations O = {O0,O1, . 3.4.1 GMM-HMM Scoring given a GMM-HMM, which is defined by the 5-tuple of matrices λ = (A,π,c,μ,Σ) and a sequence of observed O = {O0,O1, . 0.93
. . ,OT−1}, we want to determine P(O |λ). . . ,OT−1} で P(O |λ) を決定する。 0.85
The forward algorithm, which is also known as the α-pass, can be used to efficiently compute P(O |λ). フォワードアルゴリズムはαパスとしても知られ、P(O |λ) を効率的に計算することができる。 0.82
4 4 0.85
英語(論文から抽出)日本語訳スコア
Analogous to a discrete HMM as discussed in (Stamp, 2018), in the α-pass of a GMM-HMM, GMM-HMMのαパスにおいて、(Stamp, 2018)議論された離散HMMに類似する。 0.71
we define αt (i) = P(O0,O1, . 定義します αt (i) = P(O0,O1, 。 0.78
. . ,Ot ,xt = qi|λ), . . ,Ot ,xt = qi|λ) 0.88
that is, αt (i) is the probability of the partial sequence of observation up to time t, ending in state qi at time t. The desired probability is given by P(O |λ) = (cid:18)N−1 ∑ j=0 つまり、αt (i) は時間 t までの観測の部分列の確率であり、時間 t で状態 qi で終わる。所望の確率は P(O |λ) = (cid:18)N−1 ^ j=0 で与えられる。 0.86
The αt (i) can be computed recursively as αt (i) = αt (i) は αt (i) = として再帰的に計算できる 0.77
αT−1(i). (cid:19) bi(Ot ). αT−1(i)。 (cid:19) bi(Ot )。 0.81
αt−1(i)a ji αt−1(i)a ji 0.82
N−1 ∑ i=0 (2) N−1 > i=0 (2) 0.67
At time t = 0, from the definition it is clear that we have α0(i) = πibi(O0). 時間 t = 0 において、定義から α0(i) = πibi(O0) があることは明らかである。 0.87
In a discrete HMM, bi(Ot ) gives the probability of observing Ot at time t when the underlying Markov process is in state i. 離散 HMM において、bi(Ot ) は、基礎となるマルコフ過程が状態 i にあるときに t で Ot を観測する確率を与える。
訳抜け防止モード: 離散 HMM において、bi(Ot ) は確率を与える Ot を時間 t で観察すると、基礎となる Markov プロセスが状態 i にある。
0.79
In a GMM-HMM, however, simply replacing bi(Ot ) in (2) by the GMM pdf corresponds to a point value of a continuous distribution. しかし、GMM-HMMでは、単に(2)のbi(Ot )をGMM pdfで置き換えるだけで、連続分布の点値に対応する。 0.76
To obtain the desired probability, as discussed in (Nguyen, 2016), we must integrate over of a small region around observation Ot, that is, we compute 所望の確率を得るために、(nguyen, 2016)で議論されているように、観測otの周りの小さな領域、すなわち計算を統合しなければならない。 0.75
bi(Ot ) = pi(Ot |θi)dO, bi(Ot ) = pi(Ot |θi)dO, 0.90
(3) (cid:90) Ot +ε Ot−ε (3) (cid:90) Ot +ε Ot−ε 0.77
where θi consists of the parameters ci, µi and Σi of the GMM, and ε is a (small) range parameter. θi は GMM のパラメータ ci, μi, Σi から構成され、ε は(小さい)範囲パラメータである。 0.85
3.4.2 GMM-HMM Training The forward algorithm or α-pass calculates the probability of observing the sequence from the beginning up to time t. There is an analogous backwards pass or β-pass that calculates the probability of the tail of the sequence, that is, the sequence from t + 1 to the end. 3.4.2 GMM-HMM トレーニング フォワードアルゴリズムまたは α-pass は、開始から時間 t までのシーケンスを観測する確率を計算する。
訳抜け防止モード: 3.4.2 gmm - hmm training the forward algorithm or α - pass 確率を計算する 開始からタイムトラベルまでのシーケンスを観察する。 配列のテールの確率を計算する類似の後方パスまたはβパスがある。 すなわち、t + 1 から終点 への列である。
0.82
In the β-pass, we define βパスで定義します。 0.72
βt (i) = P(Ot+1,Ot+2, . βt (i) = P(Ot+1,Ot+2, 。 0.81
. . ,OT−1|xi = qi,λ). . . ,OT−1|xi = qi,λ)。 0.82
The βt (i) can be compute recursively via βt (i) = βt (i) は βt (i) = を通じて再帰的に計算できる 0.79
N−1 ∑ j=0 ai jb j(Ot )βt+1( j) N−1 > j=0 ai jb j(Ot )βt+1(j) 0.68
where we the initialization is βT−1(i) = 1, which follows from the definition. ここで、初期化は定義から続く βT−1(i) = 1 である。 0.84
In a discrete HMM, to re-estimate the state transitions in the A matrix, we first define 離散HMMでは、A行列の状態遷移を再推定するために、まず最初に定義する。
訳抜け防止モード: 離散 HMM において。 re - A 行列の状態遷移を見積もる。 最初に定義するのは
0.78
γt (i, j) = P(xt = qi,xt+1 = q j |O,λ) γt (i, j) = P(xt = qi,xt+1 = q j |O,λ) 1.00
which is the probability of being in state qi at time t and transiting to state q j at time t + 1. これは、時刻 t の状態 qi にあり、時刻 t + 1 の状態 q j に遷移する確率である。 0.71
Using the α-pass and the β-pass, we can efficiently compute γt (i, j); see (Stamp, 2018) for the details. α-pass と β-pass を使って、γt (i, j) を効率的に計算することができる(stamp, 2018)。 0.83
The sum of these “di-gamma” values with respect to the transiting states gives the probability of the observation being in state qi at time t, which we define as γt (i). 遷移状態に関するこれらの "di-gamma" 値の和は、時間 t における状態 qi にある観測の確率を与え、これは γt (i) と定義する。 0.84
That is, Thus, we can re-estimate the elements of the A matrix in a discrete HMM as その通りです。 したがって、離散 HMM における A 行列の要素を再推定することができる。 0.67
γt (i) = N ∑ j=1 γt (i) = N=j=1 0.79
γt (i, j). γt (i, j)。 0.91
ai j = T−2 γt (i, j) ∑ t=0 T−2 γt (i) ∑ t=0 ai j = T−2 γt (i, j) = t=0 T−2 γt (i) = t=0 0.76
To train a GMM-HMM, we use an analogous strategy as that used for the discrete HMM. GMM-HMMの訓練には、離散HMMに使用されるような類似戦略を用いる。 0.80
The GMM-HMM analog of the di-gamma form is あらすじ ダイガンマ形式のGMM-HMMアナログ is 0.59
γt ( j,k) = P(xt = q j |k,O,λ), γt (j,k) = p(xt = q j |k,o,λ) である。 0.94
5 5 0.85
英語(論文から抽出)日本語訳スコア
where t = 0,1, . . t = 0,1, . 0.77
. ,T −2, and j = 1,2, . . , T −2, および j = 1,2, 。 0.87
. . ,N, and we have k = 1,2, . . . ,N, k = 1,2, である。 0.84
. . ,M. Here, γt ( j,k) represents the probability of being state q j at time t with respect to the kth Gaussian mixture. . . ここで γt ( j, k) は、k 番目のガウス混合に関して t における状態 q j である確率を表す。 0.83
According to (Rabiner, 1989), these γt ( j,k) are computed as γt ( j,k) = (rabiner, 1989) によれば、これらの γt (j,k) は γt (j,k) = として計算される。 0.78
· αt ( j)βt ( j) N αt ( j)βt ( j) ∑ j=1 · αt ( j)βt ( j) N αt ( j)βt ( j) ^ j=1 0.86
c jkN(Ot |µ jk,Σ jk) M c jmN(Ot |µ jm,Σ jm) ∑ m=1 c jkN(Ot |μ jk,Σ jk) M c jmN(Ot |μ jm,Σ jm) > m=1 0.94
where the αt ( j) and βt ( j) are defined above, and c jk is the weight of the kth Gaussian mixture component. αt ( j ) と βt ( j ) は上述の形で定義され、c jk はガウス混合成分の重みである。 0.77
The re-estimates for the weights c jk of the Gaussian mixtures are given by ガウス混合物の重み c jk に対する再推定は、与えられたものである。 0.59
ˆc jk = T−1 γt ( j,k) ∑ t=0 T−1 M γt ( j,k) ∑ ∑ t=0 k=1 ※cjk= t−1 γt (j,k) が t=0 t−1 m γt (j,k) である。 0.64
, (4) for j = 1,2, . , (4) j = 1,2, です。 0.83
. . ,N and k = 1,2, . . . , N, k = 1,2。 0.84
. . ,M; see (Juang, 1985) and (Rabiner, 1989) for additional details. . . 詳細については、Juang, 1985) および (Rabiner, 1989) を参照してください。 0.83
The numerator in (4) can be interpreted as the expected number of transitions from state q j as determined by the kth Gaussian mixture while the denominator can viewed as the expected transitions from state q j given by the M Gaussian mixtures. (4) のヌメレータは k 番目のガウス混合により決定される状態 qj からの遷移の期待数と解釈できるが、分母は m 個のガウス混合により与えられた状態 qj からの期待遷移と見なすことができる。 0.80
Accordingly, the re-estimation for µ jk and Σ jk are of the form したがって、μ jk と Σ jk の再推定は形式である。 0.76
ˆµjk = T−1 γt ( j,k)Ot ∑ t=0 T−1 γt ( j,k) ∑ t=0 μjk = μjk T−1 γt ( j,k)Ot ・ t=0 T−1 γt ( j,k) ・ t=0 0.60
and T−1 ∑ t=0 そして T−1 > t=0 0.60
ˆΣ jk = γt ( j,k)(Ot − µ jk)(Ot − µ jk)(cid:48) シュΣjk = γt ( j,k)(Ot − μ jk)(Ot − μ jk)(cid:48) 0.82
T−1 ∑ t=0 γt ( j,k) T−1 > t=0 γt (複数形 γts) 0.61
, for i = 1,2, . , i = 1,2, 0.78
. . ,N and k = 1,2, . . . , N, k = 1,2。 0.84
. . ,M. 3.5 GMM-HMM Example As an example to illustrate a GMM-HMM, we train a model on English text, which is a classic example for discrete HMMs (Cave and Neuwirth, 1980). . . M. 3.5 GMM-HMM例 GMM-HMMの例として、離散HMMの古典的な例である英文でモデルを訓練する(Cave and Neuwirth, 1980)。 0.84
With N = 2 hidden states and M = 27 observation symbols (corresponding the the 26 letters and word-space), a discrete HMM trained on English text will have one hidden state corresponding to consonants, while the other hidden state corresponds to vowels. N = 2 の隠れ状態と M = 27 の観測記号(26文字と単語空間に対応する)により、英語のテキストで訓練された離散 HMM は子音に対応する1つの隠れ状態を持ち、もう1つの隠れ状態は母音に対応する。 0.76
That the model can make this key distinction is a good example of learning, since a priori no information is provided regarding the differences between the observations. モデルがこの重要な区別をすることができることは、観察の違いに関して事前の情報が提供されていないため、学習の良い例です。 0.74
We consider this same experiment using a GMM-HMM to see how this model compares to a discrete HMM. 我々は、GMM-HMMを用いて、このモデルが離散HMMとどのように比較されるかを確認する。 0.64
The English training data is from the “Brown corpus” (Brown Corpus of standard American English, 1961), and we convert all letters to lowercase and remove punctuation, numbers, and other special symbols, leaving only 26 letters and word-spaces. 英語のトレーニングデータは「ブラウンコーパス(Brown corpus of Standard American English, 1961)」からなり、すべての文字を小文字に変換し、句読点、数字、およびその他の特別な記号を削除し、26文字と単語空間を残します。 0.83
For our GMM-HMM training, we set N = 2, M = 6 (i.e., we have a mixture model consisting of 6 Gaussians) and T = 50000. GMM-HMMトレーニングでは、N = 2, M = 6(すなわち、6ガウスからなる混合モデル)とT = 50000を設定します。 0.72
The A matrix is N × N, π is 1× N, both of which are row stochastic, and initialized to approximately uniform. A 行列は N × N であり、π は 1× N であり、どちらも行確率であり、ほぼ均一に初期化される。 0.74
The parameter c represents the weights of the mixture components and is initialized with row stochastic values, also approximately uniform. パラメータcは混合成分の重みを表し、行確率値で初期化され、またほぼ均一である。 0.68
We use the global mean value (i.e., the mean of all observations) and global variance to initialize µ and Σ. グローバル平均値(すなわち、すべての観測の平均)とグローバル分散を使用して、μ と y を初期化します。 0.78
Note that each Gaussian is initialized with the same mean and variance. それぞれのガウスは、同じ平均と分散で初期化される。 0.66
We train 100 of these GMM-HMM models, each with different random initializations. 我々はこれらのGMM-HMMモデルを100種類、それぞれ異なるランダム初期化で訓練する。 0.66
As the observations are discrete symbols, the probability of each observation in state i at time t is estimated by the probability density function. 観測は離散記号であるため、時間 t における状態 i における各観測の確率は確率密度関数によって推定される。 0.85
The best of the trained models clearly shows that the GMMHMM technique is able to successfully group the vowels into one state. 最もよく訓練されたモデルは、gmmhmm技術が母音を1つの状態にうまくグループ化できることを明確に示している。 0.61
This can be seen from Figure 1. これは図1から見ることができる。 0.82
Note that in Figure 1, word-space is represented by the symbol “ ”. 図1では、単語空間は記号「 」で表されます。 0.70
6 6 0.85
英語(論文から抽出)日本語訳スコア
1 n a i s s u a G 1 n a i s s u a G 0.85
14 12 10 8 6 4 2 0 14 12 10 8 6 4 2 0 0.85
Gaussian 1 Gaussian 2 ガウス 1 ガウス 2 0.56
a b c d e f g h i a b c d e f g h i 0.85
j k l m n o p q r s t u v w x y z j k l m n o p q r s t u v w x y z 0.85
0.25 0.20 0.15 0.10 0.05 0.00 0.25 0.20 0.15 0.10 0.05 0.00 0.43
2 n a i s s u a G 2 n a i s s u a G 0.85
Figure 1: English letter distributions in each state 図1:各州における英字分布 0.72
Table 3: Mean of each Gaussian mixture in each state 表3:各状態における各ガウス混合の意味 0.83
State 0 1 1 26.00 22.60 状態 0 1 1 26.00 22.60 0.70
2 14.00 6.31 2 14.00 6.31 0.59
Gaussian 4 3 4.00 8.00 15.00 12.08 Gaussian 4 3 4.00 8.00 15.00 12.08 0.59
5 20.00 2.31 5 20.00 2.31 0.59
6 0.00 18.14 6 0.00 18.14 0.59
Figure 1 clearly shows that all vowels (and word space) belong to the first state. 図1は、すべての母音(および単語空間)が最初の状態に属することを明確に示します。
訳抜け防止モード: 図1は明らかに 全ての母音(および単語空間)は第1の状態に属する。
0.83
Table 3 lists the mean value for each Gaussian mixture in the trained model. 表3は、トレーニングされたモデルの各ガウス混合物の平均値をリストする。 0.72
The mean value of each Gaussian mixture component corresponds to the encoded value of each observation symbol. 各ガウス混合成分の平均値は、各観測シンボルの符号化値に対応する。 0.76
In this example, since we know the number of vowels beforehand, we have set the number of Gaussian mixture components to 6 (i.e., 5 vowels and word-space). この例では、前もって母音の数を知っているので、ガウス混合成分の数を6(すなわち5母音と単語空間)に設定する。 0.69
In practice, we generally do not know the true number of hidden states, in which case we would need to experiment with different numbers of Gaussians. 実際、我々は一般に隠れた状態の真の数を知ることができず、その場合、異なる数のガウスを実験する必要がある。 0.72
In general, machine learning and deep learning requires a significant degree of experimentation, so it is not surprising that we might need to fine tune our models. 一般的に、機械学習とディープラーニングは、かなりの量の実験を必要とするため、モデルを微調整する必要があることは驚くにあたらない。 0.70
4 Malware Experiments In this section, we fist introduce the dataset used in our experiments, followed by two distinct sets of experiments. 4 マルウェア実験 このセクションでは、実験で使用されるデータセットを紹介し、2つの異なる実験セットを紹介します。 0.83
In our first set of experiments, we compare the performance of discrete HMMs and GMM-HMMs using opcode sequences as our features. 最初の実験では、Opcodeシーケンスを特徴として、離散HMMとGMM-HMMの性能を比較した。 0.74
In our second set of experiments, we consider entropy sequences, which serve to illustrate the strength of the GMM-HMM technique. 2つ目の実験では,GMM-HMM法の強度を示すエントロピー列について考察した。 0.68
4.1 Dataset In all of our experiments, we consider three malware families, namely, Winwebsec, Zbot, and Zeroaccess. 4.1 Dataset 私たちのすべての実験では、3つのマルウェアファミリー、すなわちWinwebsec、Zbot、Zeroaccessを検討しています。 0.71
Winwebsec is a type of Trojan horse in the Windows operating system. WinwebsecはWindowsオペレーティングシステムにおけるトロイの木馬の一種である。 0.87
It attempts to install mali- mali のインストールを試みます。 0.57
cious programs by displaying fake links to bait users (Winwebsec, 2017). bait ユーザへの偽リンクを表示する cious プログラム (winwebsec, 2017)。 0.80
Zbot is another type of Trojan that tries to steal user information by attaching executable files to Zbotは、実行可能なファイルをアタッチすることでユーザ情報を盗もうとする別のタイプのTrojanである。
訳抜け防止モード: zbotはトロイの木馬の一種で 実行ファイルの添付によってユーザ情報を盗もうとする
0.77
spam email messages (Zbot, 2017). スパムメールメッセージ(Zbot、2017)。 0.68
Zeroaccess also tries steal information, and it can also cause other malicious actions, such as down- zeroaccessは情報を盗もうとしているし、ダウンのような他の悪質なアクションも起こせる。 0.61
loading malware or opening a backdoor (Neville and Gibb, 2013). マルウェアを読み込むか、バックドアを開く(Neville and Gibb, 2013)。 0.74
Table 4 lists the number of samples of each malware family in our dataset. 表4は、我々のデータセットにある各マルウェアファミリーのサンプル数を示す。 0.82
These families are part of the Malicia dataset (Nappa et al , 2015) and have been used in numerous previous malware studies. これらのファミリーはmaliciaデータセット(nappa et al , 2015)の一部であり、多くのマルウェア研究で使用されている。 0.69
The samples of each malware family are split into 80% for training and 20% for testing. 各マルウェアファミリーのサンプルは、トレーニング用の80%、テスト用の20%に分かれています。 0.78
We train models on one malware family, and test the resulting model separately against the other two families. 1つのマルウェアファミリーでモデルをトレーニングし、結果のモデルを他の2つのファミリーと別々にテストします。 0.67
Note that each of these experiments is a binary classification problem. これらの実験のそれぞれが二項分類問題であることに注意。 0.72
We use the area under the ROC curve (AUC) as our measure of success. 私たちはROC曲線(AUC)の下の領域を成功の尺度として使用します。 0.77
The AUC can be interpreted as the probability that a randomly selected positive sample scores higher than a randomly AUCは、ランダムに選択された正のサンプルがランダムにより高いスコアを得る確率と解釈できる。 0.74
7 7 0.85
英語(論文から抽出)日本語訳スコア
Table 4: Number of samples in each malware family 表4: 各マルウェアファミリーのサンプル数。 0.64
Family Winwebsec Zeroaccess Zbot Total Family Winwebsec Zero Access Zbot Total 0.96
Samples 4360 2136 1305 7801 サンプル 4360 2136 1305 7801。 0.88
Table 5: Percentage of top 30 opcodes 表5:トップ30のオプコードの割合 0.81
Family Winwebsec Zeroaccess Zbot Family Winwebsec Zero Access Zbot 0.95
Top 30 opcodes トップ30オプコード 0.77
96.9% 95.8% 93.4% 96.9% 95.8% 93.4% 0.63
selected negative sample (Bradley, 1997). 選択された負のサンプル(Bradley, 1997)。 0.73
We perform 5-fold cross validation, and the average AUC from the 5 folds is the numerical result that we use for comparison. 我々は5倍の交差検証を行い、5倍の平均AUCは比較に使用する数値結果である。 0.68
4.2 Opcode Features For our first set of malware experiments, we compare a discrete HMM and GMM-HMM using mnemonic opcode sequences as features. 4.2 オプコード機能 最初の一連のマルウェア実験では、mnemonicオプコードシーケンスを特徴として、離散型HMMとGMM-HMMを比較します。 0.67
To encode the input, we disassemble each executable, then extract the opcode sequence. 入力をエンコードするために、各実行ファイルを分解し、オプコードシーケンスを抽出する。 0.71
We retain the most frequent 30 opcodes with all remaining opcodes lumped together into a single “other” category, giving us a total of 31 distinct observations. 私たちは最も頻繁に30オプコードを保持し、残りのすべてのオプコードが単一の「他の」カテゴリに団結し、合計31の異なる観察を提供します。 0.71
The percentage of opcodes that are among the top 30 most frequent are listed in Table 5. 最も頻繁な上位30のオプコードの割合は、表5に示されています。 0.74
For training, we limit the length of the observation sequence to T = 100000, and for the discrete HMM, we let N = 2. 訓練のために、観測シーケンスの長さを t = 100000 に制限し、離散hmm に対して n = 2 とする。 0.71
For the GMM-HMM, we we experiment with the number of Gaussian mixtures ranging from M = 2 to M = 5. GMM-HMMでは、M = 2 から M = 5 までのガウス混合物の数を実験する。 0.72
As mentioned above, we train a model with one malware family and test with the other two malware families individually (i.e., in binary classification mode). 上記のように、1つのマルウェアファミリーでモデルをトレーニングし、他の2つのマルウェアファミリーで個別にテストします(つまり、バイナリ分類モードで)。 0.74
To test each model’s performance, we use one hundred samples from both families in the binary classification. 各モデルのパフォーマンスをテストするために、バイナリ分類には両方のファミリーから100のサンプルを使用します。 0.74
We initialize π and A to be approximately uniform, as well as making them row stochastic. π と A をほぼ均一に初期化し、列を確率的にする。 0.56
For each discrete HMM, the B matrix is initialize similarly, while for each GMM-HMM, the mean values and the covariance are initialized with the global mean value and the global covariance of all training samples. 各離散HMMでは、B行列は同様に初期化され、GMM-HMMでは、平均値と共分散は、全トレーニングサンプルのグローバル平均値とグローバル共分散で初期化される。 0.82
Figure 2 gives the average AUC (over the 5 folds) for models trained with discrete HMMs and the GMM-HMMs with different values for m, the number of Gaussians in the mixture. 図2は、離散HMMとmの異なる値を持つGMM-HMMで訓練されたモデルの平均AUC(5倍以上)、混合物中のガウス数を示します。 0.76
For most of the models, the GMM-HMM is able to obtain comparable results to the discrete HMM, and it does slightly outperform a discrete HMM in some cases. ほとんどのモデルでは、GMM-HMMは離散HMMに匹敵する結果を得ることができ、場合によっては離散HMMよりも若干優れる。 0.72
but the improvement is slight. しかし、改善は微妙です。 0.77
The results in Figure 2 indicate that for opcodes sequences, GMM-HMMs perform comparably to discrete HMMs. 図2の結果は、オプコードシーケンスの場合、GMM-HMMは離散HMMと対等に作用することを示している。 0.62
However, GMM-HMMs are more complex and more challenging to train, and the additional complexity does not appear to be warranted in this case. しかし、GMM-HMMはより複雑で訓練が困難であり、この場合追加の複雑さは保証されていないようである。 0.74
But, this is not surprising, as opcode sequences are inherently discrete features. しかし、Opcodeシーケンスは本質的に離散的な機能であるため、これは驚くべきことではない。 0.51
To obtain a more useful comparison, we next consider GMM-HMMs trained on continuous features. より有用な比較法として,連続的な特徴を訓練したGMM-HMMを考える。 0.65
4.3 Entropy Features GMM-HMMs are designed for continuous data, as opposed to discrete features, such as opcodes. 4.3 Entropy Features GMM-HMMは、オプコードのような離散的な機能とは対照的に、連続データ用に設計されている。 0.58
Thus to take full advantage of the GMM-HMM technique, we consider continuous entropy based features. したがって、GMM-HMM技術を最大限に活用するために、連続エントロピーに基づく特徴を検討する。 0.58
We use a similar feature-extraction method as in (Baysa et al , 2013). in (baysa et al , 2013) と同様の特徴抽出手法を用いる。 0.73
Specifically, we consider the raw bytes of an executable file, and we define a window size over which we compute the entropy. 具体的には、実行可能ファイルの生バイトを考慮し、エントロピーを計算するウィンドウサイズを定義する。 0.64
8 8 0.85
英語(論文から抽出)日本語訳スコア
C U A C U A C U A C U A 0.85
C U A 1.00 C U A 1.00 0.72
0.80 0.60 0.40 0.80 0.60 0.40 0.59
0.20 0.00 1.00 0.20 0.00 1.00 0.59
0.80 0.60 0.40 0.80 0.60 0.40 0.59
0.20 0.00 1.00 0.20 0.00 1.00 0.59
0.80 0.60 0.40 0.80 0.60 0.40 0.59
0.20 0.00 Test on Zeroaccess 0.20 0.00 Zeroaccessのテスト 0.65
Test on Winwebsec winwebsecでのテスト 0.88
0.87 0.70 0.80 0.87 0.70 0.80 0.59
0.85 0.90 Discrete HMM GMM-HMM 0.85 0.90 離散HMM GMM-HMM 0.63
1.00 0.80 0.60 1.00 0.80 0.60 0.59
0.40 0.20 C U A 0.40 0.20 C U A 0.68
m = 2 m = 3 m = 4 m = 5 m = 2 m = 3 m = 4 m = 5 0.85
0.00 (a) Zbot models 0.00 (a) Zbot モデル 0.89
0.69 0.66 0.64 0.69 0.66 0.64 0.59
0.69 0.65 Discrete HMM GMM-HMM 0.69 0.65 離散HMM GMM-HMM 0.63
m = 2 m = 3 m = 4 m = 5 m = 2 m = 3 m = 4 m = 5 0.85
Test on Zbot Test on Zeroaccess Zbotのテスト Zeroaccessのテスト 0.79
0.72 0.57 0.61 0.72 0.57 0.61 0.59
0.65 0.66 Discrete HMM GMM-HMM 0.65 0.66 離散HMM GMM-HMM 0.63
1.00 0.80 0.60 1.00 0.80 0.60 0.59
0.40 0.20 C U A 0.40 0.20 C U A 0.68
m = 2 m = 3 m = 4 m = 5 m = 2 m = 3 m = 4 m = 5 0.85
0.00 (b) Winwebsec models 0.00 (b) Winwebsec モデル 0.89
0.83 0.68 0.59 0.83 0.68 0.59 0.59
0.83 0.73 Discrete HMM GMM-HMM 0.83 0.73 離散HMM GMM-HMM 0.63
m = 2 m = 3 m = 4 m = 5 m = 2 m = 3 m = 4 m = 5 0.85
Test on Zbot Test on Winwebsec Zbotのテスト winwebsecでのテスト 0.84
0.71 0.68 0.72 0.71 0.68 0.72 0.59
0.66 0.64 Discrete HMM GMM-HMM 0.66 0.64 離散HMM GMM-HMM 0.63
1.00 0.80 0.60 1.00 0.80 0.60 0.59
0.40 0.20 C U A 0.40 0.20 C U A 0.68
m = 2 m = 3 m = 4 m = 5 m = 2 m = 3 m = 4 m = 5 0.85
0.00 (c) Zeroaccess models 0.00 (c) Zeroaccess モデル 0.90
0.61 0.61 0.65 0.61 0.61 0.65 0.59
0.61 0.57 Discrete HMM GMM-HMM 0.61 0.57 離散HMM GMM-HMM 0.63
m = 2 m = 3 m = 4 m = 5 m = 2 m = 3 m = 4 m = 5 0.85
Figure 2: Average AUC Then we slide the window by a fixed amount and repeat the entropy calculation. 図2:平均AUC 次に、ウィンドウを一定量スライドさせ、エントロピー計算を繰り返します。 0.70
Both the window size and the slide amount are parameters that need to be tuned to obtain optimal performance. ウィンドウサイズとスライド量の両方が最適性能を得るために調整が必要なパラメータである。 0.83
In general, the slide will be smaller than the window size to ensure no information is lost. 一般に、スライドは、情報が失われないようにウィンドウサイズよりも小さくなります。 0.73
Entropy is computed using Shannon’s well known formula (Togneri and DeSilva, 2003) エントロピーはシャノンのよく知られた公式を用いて計算される(Togneri and DeSilva, 2003) 0.78
E = − ∑ x∈Wi E = − .x.wi 0.69
p(x)log2 p(x), p(x)log2 p(x) 0.82
where Wi is the ith window, and p(x) is the frequency of the occurrence of byte x within window Wi. ここで Wi は i 番目の窓であり、p(x) はウィンドウ Wi 内のバイト x の発生頻度である。 0.84
The entropy tends to be smoothed out with larger window sizes. エントロピーは大きな窓サイズで滑らかにされる傾向がある。 0.67
We want to select a window size sufficiently large so that we reduce noise, but not so large as to lose useful information. 私たちは、ノイズを減らすために十分な大きさのウィンドウサイズを選択したいが、有用な情報を失うほど大きくはない。 0.76
Examples of entropy plots for different parameters are given in Figure 3. 異なるパラメータに対するエントロピープロットの例を図3に示します。 0.81
Based on the results in (Baysa et al , 2013), we use half of the window size as the slide amount. 結果に基づいて(baysa et al , 2013)、ウィンドウサイズの半分をスライド量として使用しました。 0.74
To select the best values for the parameters, we conduct experiments with the window and slide combinations listed in Table 6. パラメータに最適な値を選択するには、表6に示すウィンドウとスライドの組み合わせで実験を行います。 0.83
Also, as part of the parameter tuning process, we selected ε in (3) to be 0.000001 for both Zbot and Zeroaccess, while we find 0.1 is optimal for Winwebsec. また、パラメータチューニングプロセスの一環として、3でεを選択し、ZbotとZeroaccessの両方で0.000001としましたが、0.1はWinwebsecに最適です。 0.75
For models trained on Zbot, the results of our experiments with the different window and slide Zbotで訓練されたモデルの場合、異なるウィンドウとスライドによる実験の結果。 0.86
9 9 0.85
英語(論文から抽出)日本語訳スコア
y p o r t n E y p o r t n E 0.85
7 6 5 4 3 2 1 0 7 6 5 4 3 2 1 0 0.85
0 y p o r t n E 0 y p o r t n E 0.85
7 6 5 4 3 2 7 6 5 4 3 2 0.85
1 0 0 100 50 250 (a) Window size = 512 1 0 0 100 50 250 (a) ウィンドウサイズは512です。 0.85
200 150 Window number 200 150 ウィンドウ番号。 0.86
400 800 600 Window number 400 800 ウィンドウ番号。 0.77
200 1000 (b) Window size = 128 Figure 3: Entropy plots 200 1000 (b) ウィンドウサイズ = 128 図 3: エントロピープロット 0.75
300 350 1200 300 350 1200 0.85
1400 Table 6: Window size and slide amount Window size 128 64 1400 表6:ウィンドウサイズとスライド量ウィンドウサイズ128 64。 0.85
512 256 Slide 512 256 スライド 0.80
256 128 size pairings in Table 6 are given in Figure 4. 256 128 図4に表6のサイズのペアリングを示します。 0.79
The corresponding bar graphs for models trained on Winwebsec and Zeroaccess are given in Figures 5 and 6, respectively, which can be found in the Appendix. winwebsecとzeroaccessでトレーニングされたモデルの対応するバーグラフは、それぞれ図5と図6に示され、付録に記載されている。 0.80
Note that we have experimented with the number of Gaussians in our mixture ranging from m = 2 to m = 5. 私たちは、m = 2 から m = 5 までの混合物中のガウスの数を実験したことに注意してください。 0.71
We see that a window size of size 512 performs the worst, while window sizes of size 256 and 128 give improved results, with size 128 being slightly better than 256. サイズ512のウィンドウサイズが最悪であるのに対して、サイズ256と128のウィンドウサイズは結果を改善し、サイズ128は256よりもわずかに優れています。 0.84
The optimal number of Gaussians depends on the families we are classifying. ガウスの最適な数は、我々が分類している家族に依存する。 0.59
The results of analogous experiments training models on Winwebsec and Zeroaccess are given in Figures 5 and 6, respectively. WinwebsecとZeroaccessの類似実験トレーニングモデルの結果は、それぞれ図5および6に示されています。 0.82
In Table 7, we provide a direct comparison of discrete HMMs trained on opcodes to GMMHMM trained on opcodes and the best GMM-HMM models trained on entropy sequences. 表7では、オプコードで訓練された離散HMMとオプコードで訓練されたGMMHMMとエントロピーシーケンスで訓練された最高のGMM-HMMモデルを直接比較します。 0.68
In every case, the entropy-trained GMM-HMM outperforms the corresponding opcode based models. いずれの場合も、エントロピー訓練されたGMM-HMMは対応するオプコードベースモデルより優れている。 0.54
It is also worth noting that computing an entropy sequence is more efficient than extracting mnemonic opcodes. また、エントロピーシーケンスの計算は、mnemonic opcodeの抽出よりも効率的である。 0.66
While it is costlier to train a GMM-HMM, the scoring cost is similar to a discrete HMM. GMM-HMMを訓練するにはコストがかかりますが、スコアリングコストは離散HMMに似ています。 0.68
Since training is one-time work, efficiency considerations also favor entropy-based GMM-HMMs. トレーニングは一度限りの作業であるため、効率性もエントロピーベースのGMM-HMMに有利である。 0.44
From Table 7 we see that GMM-HMMs trained on entropy perform dramatically better than discrete HMMs, except in the two cases where models where Zbot and Zeroaccess are involved. 表7から、エントロピーで訓練されたGMM-HMMは、ZbotとZeroaccessが関与する2つのモデルを除いて、離散HMMよりも劇的に優れています。 0.63
To gain further insight into these anomalous case, we use the Kullback–Leibler (KL) divergence (Joyce, 2011) to compare the probability distributions defined by of our trained GMM-HMM models. これらの異常事例についてさらなる知見を得るため、トレーニングされたGMM-HMMモデルで定義される確率分布を比較するために、Kullback-Leibler(KL) 発散(Joyce, 2011)を用いる。 0.72
The 10 あらすじ 10 0.60
英語(論文から抽出)日本語訳スコア
C U A C U A C U A C U A 0.85
C U A Test on Winwebsec 0.92 0.91 C U A Winwebsec 0.92 0.91のテスト 0.76
0.91 0.92 1.00 0.80 0.60 0.40 0.20 0.00 Number of mixture components 0.91 0.92 1.00 0.80 0.60 0.40 0.20 0.00 混合成分数 0.58
m = 2 m = 3 m = 4 m = 5 m = 2 m = 3 m = 4 m = 5 0.85
Test on Zeroaccess Zeroaccessのテスト 0.78
C U A 0.87 C U A 0.87 0.72
0.88 0.87 0.86 0.88 0.87 0.86 0.59
1.00 0.80 0.60 0.40 0.20 0.00 Number of mixture components 1.00 0.80 0.60 0.40 0.20 0.00 混合成分数 0.55
m = 2 m = 3 m = 4 m = 5 m = 2 m = 3 m = 4 m = 5 0.85
(a) Window size = 512 (a)ウィンドウサイズ=512 0.78
Test on Winwebsec winwebsecでのテスト 0.88
0.97 0.86 0.94 0.97 0.86 0.94 0.59
0.85 1.00 0.80 0.60 0.40 0.20 0.00 Number of mixture components 0.85 1.00 0.80 0.60 0.40 0.20 0.00 混合成分数 0.57
m = 2 m = 3 m = 4 m = 5 m = 2 m = 3 m = 4 m = 5 0.85
C U A Test on Zeroaccess 0.94 0.92 C U A Zeroaccess 0.94 0.92のテスト 0.76
0.92 0.94 1.00 0.80 0.60 0.40 0.20 0.00 Number of mixture components 0.92 0.94 1.00 0.80 0.60 0.40 0.20 0.00 混合成分数 0.58
m = 2 m = 3 m = 4 m = 5 m = 2 m = 3 m = 4 m = 5 0.85
(b) Window size = 256 (b)ウィンドウサイズ=256 0.77
Test on Winwebsec 0.95 Winwebsec 0.95のテスト 0.78
0.97 0.98 0.89 0.97 0.98 0.89 0.59
1.00 0.80 0.60 0.40 0.20 0.00 Number of mixture components 1.00 0.80 0.60 0.40 0.20 0.00 混合成分数 0.55
m = 2 m = 3 m = 4 m = 5 m = 2 m = 3 m = 4 m = 5 0.85
C U A Test on Zeroaccess 0.94 0.92 C U A Zeroaccess 0.94 0.92のテスト 0.76
0.93 0.92 1.00 0.80 0.60 0.40 0.20 0.00 Number of mixture components 0.93 0.92 1.00 0.80 0.60 0.40 0.20 0.00 混合成分数 0.58
m = 2 m = 3 m = 4 m = 5 m = 2 m = 3 m = 4 m = 5 0.85
(c) Window size = 128 (c)ウィンドウサイズ=128 0.79
Figure 4: Entropy vs window size for Zbot models 図4:Zbotモデルのエントロピー対ウィンドウサイズ 0.70
Table 7: Comparison of discrete HMM and GMM-HMM 表7:離散HMMとGMM-HMMの比較 0.88
Test Train Zeroaccess Zbot Zbot Winwebsec Zbot Zeroaccess Zeroaccess Winwebsec Winwebsec Zbot Winwebsec Zeroaccess テストトレイン ゼロアクセス Zbot Winwebsec Zbot Zero Access Winwebsec Winwebsec Winwebsec Zero Access 0.78
Opcode 0.90 0.69 0.72 0.65 0.66 0.83 オプコード 0.90 0.69 0.72 0.65 0.66 0.83 0.52
0.94 0.98 0.77 0.99 1.00 1.00 0.94 0.98 0.77 0.99 1.00 1.00 0.43
Opcode Entropy HMM GMM-HMM GMM-HMM 0.87 0.69 0.71 0.61 0.72 0.83 (cid:90) ∞ −∞ Opcode Entropy HMM GMM-HMM GMM-HMM 0.87 0.69 0.71 0.61 0.72 0.83 (cid:90) ∞ −∞ 0.56
KL divergence between two probability distributions is given by p(x) q(x) 2つの確率分布間のKL分散は、p(x) q(x)により与えられる 0.82
(5) where p and q are probability density functions. (5) ここで p と q は確率密度関数である。 0.85
Note that the KL divergence in (5) is not symmetric, and hence not a true distance measure. (5) における KL の発散は対称ではなく、したがって真の距離測度ではないことに注意。 0.80
We compute a symmetric version of the divergence for models M1 and M2 as モデル M1 と M2 の発散の対称バージョンを計算します。 0.80
KL(p(cid:107)q) = KL(p(cid:107)q) = 0.98
p(x)log , KL(M1(cid:107)M2) + KL(M2(cid:107)M1) p(x)log , KL(M1(cid:107)M2) + KL(cid:107)M1) 0.87
KL(M1,M2) = KL(M1,M2) = 0.94
(6) Using equation (6) we obtain the (symmetric) divergence results in Table 8. (6) 方程式を用いて(6) 表8の(対称的な)発散結果を得る。 0.82
We see that the Zbot and Zeroaccess models are much closer in terms of KL divergence, as compared to the other two pairs. Zbot と Zero Access のモデルは、他の 2 つのペアと比較して KL の発散に関してはるかに近いことが分かる。 0.77
Thus we would expect GMM-HMM models to have more difficulty distinguishing these two families from each other, as compared to the models generated for the other pairs of families. したがって、GMM-HMMモデルは、他の2つのファミリーに対して生成されたモデルと比較して、これらの2つのファミリーを区別することの難しさを期待する。
訳抜け防止モード: したがって、GMM-HMMモデルは、これらの2つのファミリーを互いに区別することの難しさを期待する。 他の一組の家族のモデルと比べて
0.74
2 . 11 2 . 11 0.85
英語(論文から抽出)日本語訳スコア
Table 8: The KL divergence of different models KL divergence 表8:異なるモデルKL発散のKL発散 0.68
Models Zbot, Zeroaccess Zbot, Winwebsec Zeroaccess, Winwebsec モデル Zbot、Zero Access Zbot、Winwebsec Zero Access、Winwebsec 0.83
611.58 1594.05 1524.39 611.58 1594.05 1524.39 0.47
Curiously, the models trained on Zbot and tested on Zeroaccess perform well.1 Hence, a relatively small KL divergence does not rule out the possibility that models can be useful, but intuitively, a large divergence would seem to be an indicator of potentially challenging cases. 事実、Zbotで訓練され、Zero Accessでテストされたモデルは、よく機能する。1 比較的小さなKL分岐は、モデルが有用である可能性を排除しないが、直感的には、大きな分岐は潜在的に困難なケースの指標であると思われる。 0.68
This issue requires further study. この問題はさらなる研究を必要とする。 0.64
5 Conclusion and Future Work In this paper, we have explored the usage of GMM-HMMs for malware classification, We compared GMM-HMMs to discrete HMMs using opcode sequences, and we further experimented with entropy sequences as features for GMM-HMMs. 5 結論と今後の課題 この論文では,マルウェア分類におけるGMM-HMMの使用について検討し,GMM-HMMをオペコードシーケンスを用いて個別HMMと比較し,さらにエントロピーシーケンスをGMM-HMMの機能として実験した。 0.74
With the opcode sequence features, we were able to obtained results with GMM-HMMs that are comparable to those obtained using discrete HMMs, However, we expect GMM-HMMs to perform best on features that are naturally continuous, so we also experimented with byte-based entropy sequences. 離散HMMで得られたものと同等なGMM-HMMで結果を得ることができたが、自然連続的な特徴に対してGMM-HMMが最善を尽くすことを期待し、バイトベースのエントロピーシーケンスも実験した。 0.74
In this latter set of experiments, the GMMHMM technique yielded stronger results than the discrete HMM in all cases—and in four of the six cases, the improvement was large. 後者の実験では、gmmhmm法は全てのケースにおいて離散hmmよりも強い結果をもたらし、6つのケースのうち4つでは改善が大きかった。
訳抜け防止モード: 後者の実験では、GMMHMM法は全ての場合において離散HMMよりも強い結果を得た。 6例のうち4例では 改善が大きかったのです
0.78
We also directly compared the GMMs of our trained models using KL divergence, which seems to provide insight into the most challenging cases. また、トレーニングされたモデルのGMMをKLの発散を使って直接比較した。
訳抜け防止モード: また,学習モデルのGMMをKL分散を用いて直接比較した。 最も困難なケースについて 洞察を与えているようです
0.69
For future work, more extensive experiments over larger numbers of families with larger numbers of samples per family would be valuable. 将来の研究では、1家族あたりのサンプル数が多い家族に対するより広範な実験が価値があります。 0.77
True multiclass experiments based on GMM-HMM scores would also be of interest. GMM-HMMスコアに基づく真のマルチクラス実験も興味深い。 0.71
Further analysis of the KL divergence of GMM-HMMs might provide useful insights into these models. GMM-HMMのKL分岐のさらなる分析は、これらのモデルに有用な洞察を与えるかもしれない。 0.58
References Alfakih, M., Keche, M., Benoudnine, H., and Meche, A. Alfakih, M., Keche, M., Benoudnine, H., Meche, A。 0.65
(2020). Improved Gaussian mixture modeling for accurate Wi-Fi based indoor localization systems. (2020). 高精度wi-fi屋内定位システムのためのガウス混合モデルの改良 0.76
Physical Communication, 43. Bansal, P., Kant, A., Kumar, S., Sharda, A., and Gupta, S. (2008). 物理通信、43巻。 Bansal, P., Kant, A., Kumar, S., Sharda, A., Gupta, S. (2008)。 0.74
Improved hybrid model of hmm/gmm for speech recognition. 音声認識のためのhmm/gmmハイブリッドモデルの改良 0.79
In International Conference on Intelligent Information and Engineering Systems, INFOS 2008. International Conference on Intelligent Information and Engineering Systems, INFOS 2008 に参加して 0.91
Baysa, D., Low, R., and Stamp, M. (2013). Baysa, D., Low, R. and Stamp, M. (2013)。 0.86
Structural entropy and metamorphic malware. 構造エントロピーと変成性マルウェア。 0.72
Journal of Computer Virology and Hacking Techniques, 9(4):179–192. 日誌 of Computer Virology and Hacking Techniques, 9(4):179–192. 0.83
Ben Abdel Ouahab, I., Bouhorma, M., Boudhir, A. Ben Abdel Ouahab, I., Bouhorma, M., Boudhir, A. 0.85
A., and El Aachak, L. (2020). A., and El Aachak, L. (2020)。 0.86
Classification of grayscale malware images using the k-nearest neighbor algorithm. k-nearest neighborアルゴリズムを用いたグレースケールマルウェア画像の分類 0.81
In Ben Ahmed, M., Boudhir, A. Ben Ahmed, M., Boudhir, A。 0.72
A., Santos, D., El Aroussi, M., and Karas, ˙I. A.、Santos、D.、El Aroussi、M.、およびKaras、A.I。 0.74
R., editors, Innovations in Smart Cities Applications, pages 1038–1050. R., editors, Innovations in Smart Cities Applications, page 1038–1050。 0.94
Springer, 3 edition. Bradley, A. P. (1997). 春、第3版。 Bradley, A. P. (1997)。 0.72
The use of the area under the ROC curve in the evaluation of machine learning 機械学習評価におけるROC曲線下の領域の利用 0.70
algorithms. Pattern Recognition, 30(7):1145–1159. アルゴリズム。 パターン認識、30(7):1145–1159。 0.74
Brown Corpus of standard American English (1961). ブラウン・コーパス・オブ・スタンダード・アメリカン・イングリッシュ(1961年)。 0.47
The Brown corpus of standard American 標準アメリカ人のブラウンコーパス 0.68
English. http://www.cs.toront o.edu/˜gpenn/csc401/a1res.h tml. 英語。 http://www.cs.toront o.edu/-gpenn/csc401/ a1res.html 0.50
Cave, R. L. and Neuwirth, L. P. (1980). Cave, R. L. and Neuwirth, L. P. (1980)。 0.90
Hidden Markov models for English. 英語のための隠れマルコフモデル。 0.67
In Ferguson, J. D., ファーガソンで、J.D.。 0.53
editor, Hidden Markov Models for Speech. 編集長:Hidden Markov Models for Speech。 0.77
IDA-CCR. Chen, Y. and Wu, W. (2019). IDA-CCR Chen, Y. and Wu, W. (2019)。 0.86
Separation of geochemical anomalies from the sample data of unknown distribution population using gaussian mixture model. ガウス混合モデルを用いた未知分布集団のサンプルデータからの地球化学的異常の分離 0.89
Computers & Geosciences, 125:9–18. コンピュータと地球科学、125:9–18。 0.59
1It is worth noting that the opcode based models also performed well in this case. 1opcodeベースのモデルもこのケースでうまく機能していることに注意してください。 0.62
12 12 0.85
英語(論文から抽出)日本語訳スコア
Dang, S., Chaudhury, S., Lall, B., and Roy, P. K. (2017). Dang, S., Chaudhury, S., Lall, B., and Roy, P. K. (2017)。 0.91
Learning effective connectivity from fMRI using autoregressive hidden Markov model with missing data. 欠落データを用いた自己回帰隠れマルコフモデルを用いたfMRIからの効果的な接続性学習 0.64
Journal of Neuroscience Methods, 278:87–100. Journal of Neuroscience Methods, 278:87–100。 0.74
Fraley, C. and Raftery, A. E. (2002). Fraley, C. and Raftery, A. E. (2002)。 0.91
Model-based clustering, discriminant analysis, and density モデルに基づくクラスタリング、識別分析、密度 0.83
estimation. Journal of the American Statistical Association, 97(458):611–631. 見積。 Journal of the American Statistical Association, 97(458):611–631。 0.72
Gallop, J. (2006). ギャロップ、J。 (2006). 0.68
Facies probability from mixture distributions with non-stationary impedance errors. 非定常インピーダンス誤差を伴う混合分布からの確率。 0.86
In SEG Technical Program Expanded Abstracts 2006, pages 1801–1805. SEG Technical Program Expanded Abstracts 2006, Page 1801–1805 において。 0.81
Society of Exploration Geophysicists. Gao, Z., Sun, Z., and Liang, S. (2020). 専門は地球物理学。 Gao, Z., Sun, Z. and Liang, S. (2020)。 0.64
Probability density function for wave elevation based on 波動上昇の確率密度関数 0.57
Gaussian mixture models. Ocean Engineering, 213. ガウス混合モデル。 海洋工学 213頁。 0.65
Guoning Hu and DeLiang Wang (2004). Guoning Hu and DeLiang Wang(2004年) 0.74
Monaural speech segregation based on pitch tracking and ピッチ追跡に基づくモナラ音声の分離 0.59
amplitude modulation. IEEE Transactions on Neural Networks, 15(5):1135–1150. 振幅変調 IEEE Transactions on Neural Networks, 15(5):1135–1150。 0.73
Interrante-Grant, A. M. and Kaeli, D. (2018). Interrante-Grant, A. M. and Kaeli, D. (2018)。 0.83
Gaussian mixture models for dynamic malware clushttps://coe.nort heastern.edu/wp-cont ent/uploads/pdfs/coe /research/ Gaussian mix model for dynamic malware clushttps://coe.nort heast.edu/wp-content /uploads/pdfs/coe/re search/ 0.39
tering. embark/4-interrante- grant.alex_final.pdf . テリング embark/4-interrante- grant.alex_final.pdf 0.26
Joyce, J. M. (2011). ジョイス、J.M.(2011)。 0.65
Kullback-Leibler divergence. Kullback-Leibler 分岐。 0.57
In Lovric, M., editor, International Encyclopedia Lovric、M.、編集者、国際百科事典で。 0.62
of Statistical Science, pages 720–722. 統計科学の720-722ページ。 0.81
Springer. Juang, B. Springer ジュン、b。 0.53
(1985). Maximum-likelihood estimation for mixture multivariate stochastic observations (1985). 混合多変量確率観測のための最大類似度推定 0.74
of Markov chains. AT&T Technical Journal, 64(6):1235–1249. マルコフの鎖の。 AT&T Technical Journal, 64(6):1235-1249。 0.71
Kalash, M., Rochan, M., Mohammed, N., Bruce, N. D. B., Wang, Y., and Iqbal, F. (2018). Kalash, M., Rochan, M., Mohammed, N., Bruce, N. D. B., Wang, Y., Iqbal, F. (2018)。 0.89
Malware classification with deep convolutional neural networks. 深部畳み込みニューラルネットワークを用いたマルウェア分類 0.80
In 2018 9th IFIP International Conference on New Technologies, Mobility and Security, NTMS, pages 1–5. 2018年第9回 IFIP International Conference on New Technologies, Mobility and Security, NTMS, Page 1–5。 0.92
Kruczkowski, M. and Szynkiewicz, E. N. (2014). Kruczkowski, M. and Szynkiewicz, E. N. (2014)。 0.90
Support vector machine for malware analysis and classification. マルウェア解析と分類のためのサポートベクターマシン。 0.78
In 2014 IEEE/WIC/ACM International Joint Conferences on Web Intelligence and Intelligent Agent Technologies, WI-IAT ’14, pages 415–420. 2014年、IEEE/WIC/ACM International Joint Conferences on Web Intelligence and Intelligent Agent Technologies, WI-IAT ’14, page 415–420。 0.77
Laraba, S. and Tilmanne, J. Laraba, S. and Tilmanne, J。 0.91
(2016). Dance performance evaluation using hidden Markov models. (2016). 隠れマルコフモデルを用いたダンスパフォーマンス評価 0.80
Computer Animation and Virtual Worlds, 27(3-4):321–329. コンピュータアニメーションと仮想世界 27(3-4):321–329。 0.81
McLachlan, G. and Peel, D. (2004). McLachlan, G. and Peel, D. (2004)。 0.97
Finite Mixture Models. Wiley. 有限混合モデル。 Wiley 0.59
Milosevic, N. (2013). Milosevic, N. (2013)。 0.91
History of malware. https://arxiv.org/ab s/1302.5392. マルウェアの歴史。 https://arxiv.org/ab s/1302.5392。 0.60
Nappa, A., Rafique, M. Z., and Caballero, J. Nappa, A., Rafique, M. Z., Caballero, J. 0.82
(2015). The MALICIA dataset: Identification and analysis of drive-by download operations. (2015). MALICIAデータセット:ドライブバイダウンロード操作の識別と解析。 0.81
International Journal of Information Security, 14(1):15– 33. International Journal of Information Security, 14(1):15–33(英語) 0.81
Neville, A. and Gibb, R. (2013). Neville, A. and Gibb, R. (2013)。 0.96
ZeroAccess Indepth. ZeroAccess 詳細。 0.66
https://docs.broadco m.com/doc/ https://docs.broadco m.com/doc/ 0.36
zeroaccess-indepth-1 3-en. zero access-indepth-13-en 0.35
Nguyen, L. (2016). Nguyen, L. (2016)。 0.93
Continuous observation hidden Markov model. 連続観測隠れマルコフモデル。 0.66
Revista Kasmera, 44(6):65–149. Revista Kasmera, 44(6):65–149。 0.82
Qiao, J., Cai, X., Xiao, Q., Chen, Z., Kulkarni, P., Ferris, C., Kamarthi, S., and Sridhar, S. (2019). Qiao, J., Cai, X., Xiao, Q., Chen, Z., Kulkarni, P., Ferris, C., Kamarthi, S., and Sridhar, S. (2019)。 0.85
Data on MRI brain lesion segmentation using k-means and Gaussian mixture modelexpectation maximization. k-meansとgaussian mixed modelexpectation maximizationを用いたmri脳病変の分節化に関するデータ 0.71
Data in Brief, 27. Rabiner, L. R. (1989). 背番号は27。 Rabiner, L. R. (1989)。 0.62
A tutorial on hidden Markov models and selected applications in speech 音声における隠れマルコフモデルと選択的応用に関するチュートリアル 0.66
recognition. Proceedings of the IEEE, 77(2):257–286. 認識 IEEEの進行、77(2):257–286。 0.65
Raitoharju, M., Garc´ıa-Fern´andez, A., Hostettler, R., Pich´e, R., and S¨arkk¨a, S. (2020). Raitoharju, M., Garc ́ıa-Fern ́andez, A., Hostettler, R., Pich ́e, R。 0.67
Gaussian mixture models for signal mapping and positioning. ガウシアン 信号マッピングと位置決めのための混合モデル 0.67
Signal Processing, 168:107330. 信号処理 168:107330。 0.85
Reynolds, D. (2015). Reynolds, D. (2015)。 0.92
Gaussian mixture models. In Li, S. Z. and Jain, A. K., editors, Encyclopedia ガウス混合モデル。 In Li, S. Z. and Jain, A. K., editors, Encyclopedia 0.79
of Biometrics, pages 827–832. バイオメトリックスの827-832ページ。 0.68
Springer. Stamp, M. (2018). Springer Stamp, M. (2018)。 0.72
A revealing introduction to hidden Markov models. 隠されたマルコフモデルへの明らかに紹介。 0.60
https://www.cs.sjsu. https://www.cs.sjsu. com 0.41
edu/˜stamp/RUA/HMM.pdf. edu/ sstamp/RUA/HMM.pdf 0.33
Stanculescu, I., Williams, C. K. I., and Freer, Y. Stanculescu, I., Williams, C. K. I., Freer, Y。 0.87
(2014). Autoregressive hidden Markov models for the early detection of neonatal sepsis. (2014). 新生児敗血症早期発見のための自己回帰型隠れマルコフモデル 0.78
IEEE Journal of Biomedical and Health Informatics, 18(5):1560–1570. IEEE Journal of Biomedical and Health Informatics, 18(5):1560–1570。 0.95
Togneri, R. and DeSilva, C. J. S. (2003). Togneri, R. and DeSilva, C. J. S. (2003)。 0.89
Fundamentals of Information Theory and Coding Design. 情報理論と符号化設計の基礎。 0.83
CRC Press. 13 CRCプレス。 13 0.80
英語(論文から抽出)日本語訳スコア
Truong, A. and Zaharia, T. (2017). Truong, A. and Zaharia, T. (2017)。 0.96
Laban movement analysis and hidden Markov models for dy- dyのためのラバン運動解析と隠れマルコフモデル 0.77
namic 3D gesture recognition. namic 3Dジェスチャー認識。 0.77
EURASIP Journal on Image and Video Processing, 2017. EURASIP Journal on Image and Video Processing、2017年。 0.86
Winwebsec (2017). Winwebsec (2017)。 0.83
security intellihttps://www.m icrosoft.com/en-us/w dsi/threats/malware- encyclopedia- security intellihttps://www.m icrosoft.com/en-us/w dsi/threats/malware- encyclopedia 0.25
Win32/winwebsec threat description - Microsoft Win32/winwebsecの脅威記述 - Microsoft 0.69
gence. description?Name=Win32/Winwebsec. ジェンス name=win32/winwebsec。 0.57
Yao, Z., Ge, J., Wu, Y., Lin, X., He, R., and Ma, Y. Yao、Z.、Ge、J.、ウー、Y.、Lin、X.、He、R.およびMa、Y。 0.79
(2020). Encrypted traffic classification based on Gaussian mixture models and hidden Markov models. (2020). ガウス混合モデルと隠れマルコフモデルに基づく暗号化されたトラフィック分類。 0.80
Journal of Network and Computer Applications, 166. journal of network and computer applications, 166頁。 0.82
(2017). https://www.microsof t.com/en-us/wdsi/thr eats/malware-encyclo pediadescription?Nam e=PWS%3AWin32%2FZbot. (2017). https://www.microsof t.com/en-us/wdsi/thr eats/malware-encyclo pediadescription? 0.64
threat description - Microsoft 脅威の説明 - Microsoft 0.89
security intelligence. セキュリティ・インテリジェンスだ 0.68
Pws:win32/zbot Pws:win32/zbot 0.67
Zbot Zhang, F., Han, S., Gao, H., and Wang, T. (2020). Zbot Zhang, F., Han, S., Gao, H., and Wang, T. (2020)。 0.85
A Gaussian mixture based hidden Markov model ガウス混合に基づく隠れマルコフモデル 0.67
for motion recognition with 3D vision device. 3Dビジョンデバイスによるモーション認識。 0.73
Computers & Electrical Engineering, 83. コンピュータと電気工学、83巻。 0.80
APPENDIX Here, we bar graphs analogous to those in Figure 4 for models trained on Winwebsec and Zeroaccess. ここでは、winwebsecとzeroaccessでトレーニングされたモデルの図4のグラフに似たバーグラフを使用します。 0.65
C U A C U A C U A C U A 0.85
C U A Test on Zbot 1.00 1.00 0.99 C U A Zbot 1.00 1.00 0.99 のテスト 0.71
0.99 1.00 0.80 0.60 0.40 0.20 0.00 Number of mixture components 0.99 1.00 0.80 0.60 0.40 0.20 0.00 混合成分数 0.57
m = 2 m = 3 m = 4 m = 5 m = 2 m = 3 m = 4 m = 5 0.85
C U A Test on Zeroaccess 0.99 0.99 C U A zeroaccess 0.99 0.99 テスト 0.77
0.99 0.99 1.00 0.80 0.60 0.40 0.20 0.00 Number of mixture components 0.99 0.99 1.00 0.80 0.60 0.40 0.20 0.00 混合成分数 0.58
m = 2 m = 3 m = 4 m = 5 m = 2 m = 3 m = 4 m = 5 0.85
(a) Window size = 512 (a)ウィンドウサイズ=512 0.78
Test on Zbot 1.00 1.00 1.00 Zbot 1.00 1.00 1.00のテスト 0.57
0.99 1.00 0.80 0.60 0.40 0.20 0.00 Number of mixture components 0.99 1.00 0.80 0.60 0.40 0.20 0.00 混合成分数 0.57
m = 2 m = 3 m = 4 m = 5 m = 2 m = 3 m = 4 m = 5 0.85
C U A Test on Zeroaccess 1.00 1.00 C U A Zeroaccess 1.00 1.00のテスト 0.76
1.00 0.99 1.00 0.80 0.60 0.40 0.20 0.00 Number of mixture components 1.00 0.99 1.00 0.80 0.60 0.40 0.20 0.00 混合成分数 0.58
m = 2 m = 3 m = 4 m = 5 m = 2 m = 3 m = 4 m = 5 0.85
(b) Window size = 256 (b)ウィンドウサイズ=256 0.77
Test on Zbot 1.00 1.00 1.00 Zbot 1.00 1.00 1.00のテスト 0.57
1.00 1.00 0.80 0.60 0.40 0.20 0.00 Number of mixture components 1.00 1.00 0.80 0.60 0.40 0.20 0.00 混合成分数 0.57
m = 2 m = 3 m = 4 m = 5 m = 2 m = 3 m = 4 m = 5 0.85
C U A Test on Zeroaccess 1.00 1.00 C U A Zeroaccess 1.00 1.00のテスト 0.76
1.00 1.00 1.00 0.80 0.60 0.40 0.20 0.00 Number of mixture components 1.00 1.00 1.00 0.80 0.60 0.40 0.20 0.00 混合成分数 0.58
m = 2 m = 3 m = 4 m = 5 m = 2 m = 3 m = 4 m = 5 0.85
(c) Window size = 128 (c)ウィンドウサイズ=128 0.79
Figure 5: Entropy vs window size for Winwebsec models 図5:Winwebsecモデルのエントロピー対ウィンドウサイズ 0.74
14 14 0.85
英語(論文から抽出)日本語訳スコア
C U A C U A C U A C U A 0.85
C U A Test on Zbot C U A Zbotのテスト 0.83
0.71 0.72 0.65 0.71 0.72 0.65 0.59
0.66 1.00 0.80 0.60 0.40 0.20 0.00 Number of mixture components 0.66 1.00 0.80 0.60 0.40 0.20 0.00 混合成分数 0.57
m = 2 m = 3 m = 4 m = 5 m = 2 m = 3 m = 4 m = 5 0.85
C U A Test on Winwebsec 0.99 C U A Winwebsec 0.99のテスト 0.82
0.99 0.92 0.82 0.99 0.92 0.82 0.59
1.00 0.80 0.60 0.40 0.20 0.00 Number of mixture components 1.00 0.80 0.60 0.40 0.20 0.00 混合成分数 0.55
m = 2 m = 3 m = 4 m = 5 m = 2 m = 3 m = 4 m = 5 0.85
(a) Window size = 512 (a)ウィンドウサイズ=512 0.78
Test on Zbot 0.69 Zbotのテスト 0.69 0.69
0.54 0.64 1.00 0.80 0.60 0.40 0.20 0.00 Number of mixture components 0.54 0.64 1.00 0.80 0.60 0.40 0.20 0.00 混合成分数 0.58
m = 2 m = 3 m = 4 m = 5 m = 2 m = 3 m = 4 m = 5 0.85
0.52 C U A 0.52 C U A 0.72
Test on Winwebsec 0.99 Winwebsec 0.99のテスト 0.78
0.94 0.84 0.81 0.94 0.84 0.81 0.59
1.00 0.80 0.60 0.40 0.20 0.00 Number of mixture components 1.00 0.80 0.60 0.40 0.20 0.00 混合成分数 0.55
m = 2 m = 3 m = 4 m = 5 m = 2 m = 3 m = 4 m = 5 0.85
(b) Window size = 256 (b)ウィンドウサイズ=256 0.77
Test on Zbot Test on Winwebsec Zbotのテスト winwebsecでのテスト 0.84
0.77 0.76 0.77 0.77 0.76 0.77 0.59
0.68 1.00 0.80 0.60 0.40 0.20 0.00 Number of mixture components 0.68 1.00 0.80 0.60 0.40 0.20 0.00 混合成分数 0.57
m = 2 m = 3 m = 4 m = 5 m = 2 m = 3 m = 4 m = 5 0.85
C U A 0.56 C U A 0.56 0.72
0.60 0.72 1.00 0.80 0.60 0.40 0.20 0.00 Number of mixture components 0.60 0.72 1.00 0.80 0.60 0.40 0.20 0.00 混合成分数 0.58
m = 2 m = 3 m = 4 m = 5 m = 2 m = 3 m = 4 m = 5 0.85
0.54 (c) Window size = 128 0.54 (c)ウィンドウサイズ=128 0.69
Figure 6: Entropy vs window size for Zeroaccess models 図6: Zeroaccess モデルのエントロピー対ウィンドウサイズ。 0.75
15 15 0.85
                               ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。