論文の概要: Classifying Sequences of Extreme Length with Constant Memory Applied to
Malware Detection
- arxiv url: http://arxiv.org/abs/2012.09390v1
- Date: Thu, 17 Dec 2020 04:45:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-02 07:42:25.123811
- Title: Classifying Sequences of Extreme Length with Constant Memory Applied to
Malware Detection
- Title(参考訳): マルウェア検出への定記憶による極長の分類
- Authors: Edward Raff, William Fleshman, Richard Zak, Hyrum S. Anderson, Bobby
Filar, Mark McLean
- Abstract要約: MalConvは、最大2000,000ドルのステップを処理できる畳み込みニューラルネットワークである。
我々は、必要なメモリをシーケンス長$t$に不変にする時間的maxプーリングの新しいアプローチを開発した。
これにより、MalConv $116times$ メモリ効率が向上し、オリジナルのデータセットでトレーニングするのに最大25.8times$ が高速になる。
- 参考スコア(独自算出の注目度): 18.34421905502784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works within machine learning have been tackling inputs of
ever-increasing size, with cybersecurity presenting sequence classification
problems of particularly extreme lengths. In the case of Windows executable
malware detection, inputs may exceed $100$ MB, which corresponds to a time
series with $T=100,000,000$ steps. To date, the closest approach to handling
such a task is MalConv, a convolutional neural network capable of processing up
to $T=2,000,000$ steps. The $\mathcal{O}(T)$ memory of CNNs has prevented
further application of CNNs to malware. In this work, we develop a new approach
to temporal max pooling that makes the required memory invariant to the
sequence length $T$. This makes MalConv $116\times$ more memory efficient, and
up to $25.8\times$ faster to train on its original dataset, while removing the
input length restrictions to MalConv. We re-invest these gains into improving
the MalConv architecture by developing a new Global Channel Gating design,
giving us an attention mechanism capable of learning feature interactions
across 100 million time steps in an efficient manner, a capability lacked by
the original MalConv CNN. Our implementation can be found at
https://github.com/NeuromorphicComputationResearchProgram/MalConv2
- Abstract(参考訳): 機械学習における最近の研究は、特に極端な長さのシーケンス分類問題をサイバーセキュリティが提示している。
Windows実行可能マルウェア検出の場合、入力は100ドル MB を超え、これは$T=100,000,000 ステップの時系列に対応する。
現在、そのようなタスクを処理するための最も近いアプローチは、最大2000,000ドルのステップを処理できる畳み込みニューラルネットワークであるMalConvである。
CNNの$\mathcal{O}(T)$メモリは、CNNのマルウェアへのさらなる適用を妨げている。
本研究では,時間的最大値プーリングに対する新たなアプローチを開発し,必要なメモリを列長$T$に不変にする。
これにより、MalConv $116\times$ メモリ効率が向上し、25.8\times$ のトレーニング速度が向上し、MalConvへの入力長制限が取り除かれた。
我々は,MalConvアーキテクチャを改良するために,新たなGlobal Channel Gating設計を導入し,従来のMalConv CNNに欠ける機能である1億のタイムステップにわたる機能インタラクションを効率的に学習する機構について検討した。
私たちの実装はhttps://github.com/NeuromorphicComputationResearchProgram/MalConv2で確認できます。
関連論文リスト
- Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - Corralling a Larger Band of Bandits: A Case Study on Switching Regret
for Linear Bandits [99.86860277006318]
本稿では,一組の逆アルゴリズムを組み合わせ,学習することの問題点について考察する。
Agarwal et al. の CORRAL はこの目標を、$widetildeO(sqrtd S T)$ の残酷なオーバーヘッドで達成している。
この問題に触発されて、後悔のオーバーヘッドが百万ドルにしか依存しない大規模バンディットアルゴリズムのバンドを囲む新しいレシピを提案する。
論文 参考訳(メタデータ) (2022-02-12T21:55:44Z) - Learning Contextual Bandits Through Perturbed Rewards [107.6210145983805]
標準正規性条件下では、$tildeO(tildedsqrtT)$ regret上界が達成可能であることを示す。
明示的な探索の必要性を排除するために、ニューラルネットワークを更新する際の報酬を混乱させます。
論文 参考訳(メタデータ) (2022-01-24T19:10:22Z) - Training Multi-Layer Over-Parametrized Neural Network in Subquadratic
Time [15.47589790624764]
マルチ層オーバーパラメトリズドニューラルネットワークをトレーニングする際の問題点を考察する。
イテレーション毎のトレーニングコストの削減方法を示します。
論文 参考訳(メタデータ) (2021-12-14T18:13:36Z) - Learning a Latent Simplex in Input-Sparsity Time [58.30321592603066]
我々は、$AinmathbbRdtimes n$へのアクセスを考えると、潜入$k$-vertex simplex $KsubsetmathbbRdtimes n$を学習する問題を考える。
実行時間における$k$への依存は、トップ$k$特異値の質量が$a$であるという自然な仮定から不要であることを示す。
論文 参考訳(メタデータ) (2021-05-17T16:40:48Z) - Recursively Refined R-CNN: Instance Segmentation with Self-RoI
Rebalancing [2.4634850020708616]
本稿では,ループ機構を導入することで重複を回避するR-CNN(R3$-CNN)を提案する。
実験では,重みのループ機構の特定のエンコーディングに注目し,推論時に使用する必要がある。
このアーキテクチャは、最近提案されたHTCモデルを超えることができ、パラメータの数を著しく削減できる。
論文 参考訳(メタデータ) (2021-04-03T07:25:33Z) - Compressing 1D Time-Channel Separable Convolutions using Sparse Random
Ternary Matrices [65.4388266814055]
1次元時間チャネル分離可能な畳み込みの1x1-畳み込みを、定数でスパースな乱数三元行列で-1,0,+1$の重みで置き換える。
Google Speech Commands v1のコマンド認識のために、最新の精度を同じネットワークサイズで97.21%$から97.41%$に改善します。
librispeech上での音声認識では、トレーニングすべき重みの数は半分になり、浮動小数点ベースラインの単語誤り率の約1%を犠牲にします。
論文 参考訳(メタデータ) (2021-03-31T15:09:20Z) - Accelerated Sparse Neural Training: A Provable and Efficient Method to
Find N:M Transposable Masks [28.498176073737422]
最近、研究者はN:M$のきめ細かいブロック空間マスクを使用してディープニューラルネットワーク重み(DNN)を刈り取ることを提案した。
前方と後方の両方に同じマスクを使用できる新しいトランスポジブル細粒スパーシティマスクを提案します。
実験では,視覚モデルと言語モデルに対する精度低下を伴わない2倍の速度アップを提案する。
論文 参考訳(メタデータ) (2021-02-16T12:44:16Z) - Sub-Linear Memory: How to Make Performers SLiM [38.068090269482425]
vanilla Transformerは、入力長$L$の関数としてシリアル時間とメモリで$O(L2)$を必要とする。
最近の研究は、連続計算に$o(l)$でしかスケールしない様々な線形自己アテンション機構を提案している。
計算の柔軟性は顕著であり, サブリニアメモリを用いた近似をすることなく, 前方および後方の伝播を行うことができる。
論文 参考訳(メタデータ) (2020-12-21T13:56:04Z) - Small Covers for Near-Zero Sets of Polynomials and Learning Latent
Variable Models [56.98280399449707]
我々は、s$ of cardinality $m = (k/epsilon)o_d(k1/d)$ に対して $epsilon$-cover が存在することを示す。
構造的結果に基づいて,いくつかの基本的高次元確率モデル隠れ変数の学習アルゴリズムを改良した。
論文 参考訳(メタデータ) (2020-12-14T18:14:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。