Fugu-MT 論文翻訳(概要): Quo Vadis: Hybrid Machine Learning Meta-Model based on Contextual and Behavioral Malware Representations

論文の概要: Quo Vadis: Hybrid Machine Learning Meta-Model based on Contextual and Behavioral Malware Representations

arxiv url: http://arxiv.org/abs/2208.12248v2
Date: Sat, 19 Oct 2024 16:07:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:28.4004
Title: Quo Vadis: Hybrid Machine Learning Meta-Model based on Contextual and Behavioral Malware Representations
Title（参考訳）: Quo Vadis: コンテキストおよび行動的マルウェア表現に基づくハイブリッド機械学習メタモデル
Authors: Dmitrijs Trizna,
Abstract要約: 複数のディープラーニングモデルを同時に利用するハイブリッド機械学習アーキテクチャを提案する。我々は,現在の最先端モデルの能力よりも優れた検出率を報告した。
参考スコア（独自算出の注目度）: 5.439020425819001
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We propose a hybrid machine learning architecture that simultaneously employs multiple deep learning models analyzing contextual and behavioral characteristics of Windows portable executable, producing a final prediction based on a decision from the meta-model. The detection heuristic in contemporary machine learning Windows malware classifiers is typically based on the static properties of the sample since dynamic analysis through virtualization is challenging for vast quantities of samples. To surpass this limitation, we employ a Windows kernel emulation that allows the acquisition of behavioral patterns across large corpora with minimal temporal and computational costs. We partner with a security vendor for a collection of more than 100k int-the-wild samples that resemble the contemporary threat landscape, containing raw PE files and filepaths of applications at the moment of execution. The acquired dataset is at least ten folds larger than reported in related works on behavioral malware analysis. Files in the training dataset are labeled by a professional threat intelligence team, utilizing manual and automated reverse engineering tools. We estimate the hybrid classifier's operational utility by collecting an out-of-sample test set three months later from the acquisition of the training set. We report an improved detection rate, above the capabilities of the current state-of-the-art model, especially under low false-positive requirements. Additionally, we uncover a meta-model's ability to identify malicious activity in validation and test sets even if none of the individual models express enough confidence to mark the sample as malevolent. We conclude that the meta-model can learn patterns typical to malicious samples from representation combinations produced by different analysis techniques. We publicly release pre-trained models and anonymized dataset of emulation reports.
Abstract（参考訳）: 本稿では,複数のディープラーニングモデルを用いて,Windows ポータブル実行環境のコンテキスト特性と動作特性を同時に解析し,メタモデルによる決定に基づく最終的な予測を生成するハイブリッド機械学習アーキテクチャを提案する。現代の機械学習における検出ヒューリスティックは、多くのサンプルに対して仮想化による動的解析が困難であるため、通常、Windowsのマルウェア分類器はサンプルの静的特性に基づいている。この制限を克服するために、我々は、時間的および計算コストを最小限に抑えながら、大規模なコーパスにわたる行動パターンの取得を可能にするWindowsカーネルエミュレーションを採用している。当社はセキュリティベンダと提携して,現在の脅威の状況に類似した,100万件以上のInt-the-wildサンプルのコレクションを作成しています。取得したデータセットは、行動マルウェア分析に関する報告よりも少なくとも10倍大きい。トレーニングデータセットのファイルは、手動および自動化リバースエンジニアリングツールを使用して、プロフェッショナルな脅威インテリジェンスチームによってラベル付けされる。トレーニングセットの取得から3ヶ月後, サンプル外テストセットを収集し, ハイブリッド分類器の実用性を推定した。本稿では,特に偽陽性の低い条件下で,現在の最先端モデルの能力よりも高い検出率の向上を報告した。さらに、検証やテストセットにおける悪意のあるアクティビティを識別するメタモデルの能力を明らかにする。メタモデルは、異なる分析手法によって生成された表現の組み合わせから、悪意あるサンプルに典型的なパターンを学習することができると結論付けている。トレーニング済みのモデルとエミュレーションレポートの匿名化データセットを公開しています。

関連論文リスト

Self-Improving LLM Agents at Test-Time [49.9396634315896]
言語モデル(LM)の1つのパラダイムは、大規模なトレーニングデータセットの作成に依存している。実際には、大量のデータを集めることは非効率であり、それらのトレーニングは違法に高価である。テスト時間自己改善(TT-SI)とテスト時間蒸留(TT-D)の2つのバリエーションについて検討する。
論文参考訳（メタデータ） (2025-10-09T06:37:35Z)
Crucial-Diff: A Unified Diffusion Model for Crucial Image and Annotation Synthesis in Data-scarce Scenarios [65.97836905826145]
医療、産業、自動運転といったさまざまなシナリオにおけるデータの不足は、モデルの過度な適合とデータセットの不均衡につながる。重要なサンプルを合成するドメインに依存しないフレームワークであるCrucial-Diffを提案する。我々のフレームワークは多様な高品質なトレーニングデータを生成し、ピクセルレベルのAPは83.63%、F1-MAXは78.12%である。
論文参考訳（メタデータ） (2025-07-14T04:41:38Z)
Free Record-Level Privacy Risk Evaluation Through Artifact-Based Methods [6.902279764206365]
メンバーシップ推論攻撃(MIA)は機械学習モデルにおけるプライバシリスクを評価するために広く利用されている。最先端の手法では、ターゲットモデルと同じアーキテクチャで数百のシャドウモデルをトレーニングする必要があります。そこで本研究では,トレーニングプロセス中に自然に入手可能なアーティファクトを解析することにより,メンバシップ推論攻撃に最も脆弱なトレーニングサンプルを同定する手法を提案する。
論文参考訳（メタデータ） (2024-11-08T18:04:41Z)
Multimedia Traffic Anomaly Detection [16.428768082688908]
ユーザレベルのソーシャルマルチメディアトラフィック異常検出のためのメタラーニング手法である textitMeta-UAD を提案する。提案手法を2つの公開データセット上で評価し,Meta-UADの優位性をさらに証明した。
論文参考訳（メタデータ） (2024-08-27T08:55:41Z)
SLIFER: Investigating Performance and Robustness of Malware Detection Pipelines [12.940071285118451]
アカデミアは、モデル1つまたはアンサンブル内の静的解析と動的解析を組み合わせることに焦点を当てる。本稿では,多種多様な解析手法を用いて構築したマルウェア検知器の特性について検討する。私たちが知る限り、我々はシーケンシャルなマルウェア検知器の特性を初めて調査し、実際の生産環境での行動に光を当てています。
論文参考訳（メタデータ） (2024-05-23T12:06:10Z)
Small Effect Sizes in Malware Detection? Make Harder Train/Test Splits! [51.668411293817464]
業界関係者は、モデルが数億台のマシンにデプロイされているため、マルウェア検出精度の小さな改善に気を配っている。学術研究はしばしば1万のサンプルの順序で公開データセットに制限される。利用可能なサンプルのプールから難易度ベンチマークを生成するためのアプローチを考案する。
論文参考訳（メタデータ） (2023-12-25T21:25:55Z)
IoTGeM: Generalizable Models for Behaviour-Based IoT Attack Detection [3.3772986620114387]
一般化性を重視したIoTネットワーク攻撃をモデル化するアプローチを提案する。まず,機能抽出のための転がり窓のアプローチを改良し,オーバーフィッティングを低減した多段階機能選択プロセスを提案する。次に、独立したトレインとテストデータセットを使用してモデルを構築し、テストする。第3に、機械学習モデル、評価指標、データセットの多様なポートフォリオを使用して、方法論を厳格に評価する。
論文参考訳（メタデータ） (2023-10-17T21:46:43Z)
Nebula: Self-Attention for Dynamic Malware Analysis [14.710331873072146]
我々は、多様な行動表現とフォーマットをまたいで一般化する、汎用的で自己注意型トランスフォーマーベースのニューラルアーキテクチャであるNebulaを紹介する。我々は,異なる動的解析プラットフォームから取得した3つのデータセットを用いて,マルウェア検出と分類作業の両方について実験を行った。自己教師付き学習事前学習は、トレーニングデータの20%しか持たない完全教師付きモデルの性能とどのように一致しているかを示す。
論文参考訳（メタデータ） (2023-09-19T09:24:36Z)
Unleashing Mask: Explore the Intrinsic Out-of-Distribution Detection Capability [70.72426887518517]
Out-of-Distribution(OOD)検出は、機械学習モデルを現実世界のアプリケーションにデプロイする際に、セキュアAIの必須の側面である。本稿では,IDデータを用いた学習モデルのOOD識別能力を復元する新しい手法であるUnleashing Maskを提案する。本手法では, マスクを用いて記憶した非定型サンプルを抽出し, モデルを微調整するか, 導入したマスクでプルーする。
論文参考訳（メタデータ） (2023-06-06T14:23:34Z)
Provable Robustness for Streaming Models with a Sliding Window [51.85182389861261]
オンラインコンテンツレコメンデーションや株式市場分析のようなディープラーニングアプリケーションでは、モデルは過去のデータを使って予測を行う。入力ストリーム上の固定サイズのスライディングウインドウを使用するモデルに対して、ロバスト性証明を導出する。私たちの保証は、ストリーム全体の平均モデルパフォーマンスを保ち、ストリームサイズに依存しないので、大きなデータストリームに適しています。
論文参考訳（メタデータ） (2023-03-28T21:02:35Z)
Zero-shot Model Diagnosis [80.36063332820568]
ディープラーニングモデルを評価するための一般的なアプローチは、興味のある属性を持つラベル付きテストセットを構築し、そのパフォーマンスを評価することである。本稿では,ゼロショットモデル診断(ZOOM)がテストセットやラベル付けを必要とせずに可能であることを論じる。
論文参考訳（メタデータ） (2023-03-27T17:59:33Z)
CARLA-GeAR: a Dataset Generator for a Systematic Evaluation of Adversarial Robustness of Vision Models [61.68061613161187]
本稿では,合成データセットの自動生成ツールであるCARLA-GeARについて述べる。このツールは、Python APIを使用して、CARLAシミュレータ上に構築されており、自律運転のコンテキストにおいて、いくつかのビジョンタスク用のデータセットを生成することができる。本稿では,CARLA-GeARで生成されたデータセットが,現実世界の敵防衛のベンチマークとして今後どのように利用されるかを示す。
論文参考訳（メタデータ） (2022-06-09T09:17:38Z)
Autoencoder Attractors for Uncertainty Estimation [13.618797548020462]
本稿では,オートエンコーダモデルに基づく不確実性推定手法を提案する。提案手法は,車室内における占有者分類の産業的応用だけでなく,いくつかのデータセットの組み合わせについても検討した。
論文参考訳（メタデータ） (2022-04-01T12:10:06Z)
Firearm Detection via Convolutional Neural Networks: Comparing a Semantic Segmentation Model Against End-to-End Solutions [68.8204255655161]
武器の脅威検出とライブビデオからの攻撃的な行動は、潜在的に致命的な事故の迅速検出と予防に使用できる。これを実現する一つの方法は、人工知能と、特に画像分析のための機械学習を使用することです。従来のモノリシックなエンド・ツー・エンドのディープラーニングモデルと、セマンティクスセグメンテーションによって火花を検知する単純なニューラルネットワークのアンサンブルに基づく前述したモデルを比較した。
論文参考訳（メタデータ） (2020-12-17T15:19:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。