論文の概要: Nebula: Self-Attention for Dynamic Malware Analysis
- arxiv url: http://arxiv.org/abs/2310.10664v2
- Date: Fri, 25 Oct 2024 18:22:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:14:18.125035
- Title: Nebula: Self-Attention for Dynamic Malware Analysis
- Title(参考訳): Nebula: 動的マルウェア分析のための自己注意
- Authors: Dmitrijs Trizna, Luca Demetrio, Battista Biggio, Fabio Roli,
- Abstract要約: 我々は、多様な行動表現とフォーマットをまたいで一般化する、汎用的で自己注意型トランスフォーマーベースのニューラルアーキテクチャであるNebulaを紹介する。
我々は,異なる動的解析プラットフォームから取得した3つのデータセットを用いて,マルウェア検出と分類作業の両方について実験を行った。
自己教師付き学習事前学習は、トレーニングデータの20%しか持たない完全教師付きモデルの性能とどのように一致しているかを示す。
- 参考スコア(独自算出の注目度): 14.710331873072146
- License:
- Abstract: Dynamic analysis enables detecting Windows malware by executing programs in a controlled environment and logging their actions. Previous work has proposed training machine learning models, i.e., convolutional and long short-term memory networks, on homogeneous input features like runtime APIs to either detect or classify malware, neglecting other relevant information coming from heterogeneous data like network and file operations. To overcome these issues, we introduce Nebula, a versatile, self-attention Transformer-based neural architecture that generalizes across different behavioral representations and formats, combining diverse information from dynamic log reports. Nebula is composed by several components needed to tokenize, filter, normalize and encode data to feed the transformer architecture. We firstly perform a comprehensive ablation study to evaluate their impact on the performance of the whole system, highlighting which components can be used as-is, and which must be enriched with specific domain knowledge. We perform extensive experiments on both malware detection and classification tasks, using three datasets acquired from different dynamic analyses platforms, show that, on average, Nebula outperforms state-of-the-art models at low false positive rates, with a peak of 12% improvement. Moreover, we showcase how self-supervised learning pre-training matches the performance of fully-supervised models with only 20% of training data, and we inspect the output of Nebula through explainable AI techniques, pinpointing how attention is focusing on specific tokens correlated to malicious activities of malware families. To foster reproducibility, we open-source our findings and models at https://github.com/dtrizna/nebula.
- Abstract(参考訳): 動的解析により、制御された環境でプログラムを実行し、アクションをログすることで、Windowsのマルウェアを検出することができる。
これまでの研究では、ネットワークやファイル操作のような異種データから得られる他の関連する情報を無視し、マルウェアを検出または分類するための実行時APIのような均質な入力機能に基づいて、畳み込みと長期記憶ネットワークという機械学習モデルのトレーニングが提案されていた。
これらの問題を克服するために、さまざまな行動表現やフォーマットを一般化し、動的ログレポートから多様な情報を組み合わせる、汎用的で自己注意型トランスフォーマーベースのニューラルアーキテクチャであるNebulaを導入する。
Nebulaは、トランスフォーマーアーキテクチャを提供するためにデータのトークン化、フィルタリング、正規化、エンコードに必要ないくつかのコンポーネントで構成されている。
まず、システム全体のパフォーマンスへの影響を評価するための総合的アブレーション研究を行い、どのコンポーネントがas-isとして使用できるのか、特定のドメイン知識に富まなければならないのかを強調した。
我々は,異なる動的解析プラットフォームから取得した3つのデータセットを用いて,マルウェア検出と分類タスクの両方について広範な実験を行い,Nebulaは平均して,偽陽性率の低い最先端モデルよりも12%向上したことを示す。
さらに、自己教師付き学習事前学習が、完全に教師されたモデルの性能と、トレーニングデータのわずか20%でどのように一致しているかを示し、説明可能なAI技術を通してネビュラの出力を検査し、マルウェア家族の悪意ある活動に相関する特定のトークンに注意が向けられているかを見極める。
再現性を高めるため、私たちはhttps://github.com/dtrizna/nebula.comで発見とモデルをオープンソース化しました。
関連論文リスト
- Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - Explainable AI for Comparative Analysis of Intrusion Detection Models [20.683181384051395]
本研究は,ネットワークトラフィックから侵入検出を行うために,各種機械学習モデルを二分分類および多クラス分類のタスクに解析する。
すべてのモデルをUNSW-NB15データセットで90%の精度でトレーニングしました。
また、Random Forestは正確さ、時間効率、堅牢性という点で最高のパフォーマンスを提供します。
論文 参考訳(メタデータ) (2024-06-14T03:11:01Z) - IoTGeM: Generalizable Models for Behaviour-Based IoT Attack Detection [3.3772986620114387]
一般化性を重視したIoTネットワーク攻撃をモデル化するアプローチを提案する。
まず,機能抽出のための転がり窓のアプローチを改良し,オーバーフィッティングを低減した多段階機能選択プロセスを提案する。
次に、独立したトレインとテストデータセットを使用してモデルを構築し、テストする。
第3に、機械学習モデル、評価指標、データセットの多様なポートフォリオを使用して、方法論を厳格に評価する。
論文 参考訳(メタデータ) (2023-10-17T21:46:43Z) - Decoding the Secrets of Machine Learning in Malware Classification: A
Deep Dive into Datasets, Feature Extraction, and Model Performance [25.184668510417545]
これまでに670世帯の67Kサンプル(それぞれ100サンプル)で、最大のバランスのとれたマルウェアデータセットを収集しました。
我々は、我々のデータセットを用いて、マルウェア検出と家族分類のための最先端モデルを訓練する。
以上の結果から,静的な特徴は動的機能よりも優れており,両者を組み合わせることで,静的な特徴よりも限界的な改善がもたらされることがわかった。
論文 参考訳(メタデータ) (2023-07-27T07:18:10Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - Quo Vadis: Hybrid Machine Learning Meta-Model based on Contextual and Behavioral Malware Representations [5.439020425819001]
複数のディープラーニングモデルを同時に利用するハイブリッド機械学習アーキテクチャを提案する。
我々は,現在の最先端モデルの能力よりも優れた検出率を報告した。
論文 参考訳(メタデータ) (2022-08-20T05:30:16Z) - CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。
特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-30T13:34:46Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z) - Anomaly Detection on Attributed Networks via Contrastive Self-Supervised
Learning [50.24174211654775]
本論文では,アトリビュートネットワーク上の異常検出のためのコントラスト型自己監視学習フレームワークを提案する。
このフレームワークは、新しいタイプのコントラストインスタンスペアをサンプリングすることで、ネットワークデータからのローカル情報を完全に活用します。
高次元特性と局所構造から情報埋め込みを学習するグラフニューラルネットワークに基づくコントラスト学習モデルを提案する。
論文 参考訳(メタデータ) (2021-02-27T03:17:20Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。