論文の概要: Marvolo: Programmatic Data Augmentation for Practical ML-Driven Malware
Detection
- arxiv url: http://arxiv.org/abs/2206.03265v1
- Date: Tue, 7 Jun 2022 13:18:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 21:45:11.572734
- Title: Marvolo: Programmatic Data Augmentation for Practical ML-Driven Malware
Detection
- Title(参考訳): Marvolo: ML駆動型マルウェア検出のためのプログラムデータ拡張
- Authors: Michael D. Wong, Edward Raff, James Holt, Ravi Netravali
- Abstract要約: 我々は、ML駆動型マルウェア検出装置の精度を高める方法として、マルウェア(および良性)データセットを成長させるバイナリバイナリミュータであるMARVOLOを提案する。
MARVOLOは、マルウェアの作者と防御上の良質な開発者が日常的に行う変更を模倣するセマンティックスコード変換を採用している。
広範囲に分散した商用マルウェアデータセットと最近のML駆動のマルウェア検出実験は、MARVOLOがアキュラシーを最大5%向上させることを示している。
- 参考スコア(独自算出の注目度): 32.99625344400623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data augmentation has been rare in the cyber security domain due to technical
difficulties in altering data in a manner that is semantically consistent with
the original data. This shortfall is particularly onerous given the unique
difficulty of acquiring benign and malicious training data that runs into
copyright restrictions, and that institutions like banks and governments
receive targeted malware that will never exist in large quantities. We present
MARVOLO, a binary mutator that programmatically grows malware (and benign)
datasets in a manner that boosts the accuracy of ML-driven malware detectors.
MARVOLO employs semantics-preserving code transformations that mimic the
alterations that malware authors and defensive benign developers routinely make
in practice , allowing us to generate meaningful augmented data. Crucially,
semantics-preserving transformations also enable MARVOLO to safely propagate
labels from original to newly-generated data samples without mandating
expensive reverse engineering of binaries. Further, MARVOLO embeds several key
optimizations that keep costs low for practitioners by maximizing the density
of diverse data samples generated within a given time (or resource) budget.
Experiments using wide-ranging commercial malware datasets and a recent
ML-driven malware detector show that MARVOLO boosts accuracies by up to 5%,
while operating on only a small fraction (15%) of the potential input binaries.
- Abstract(参考訳): データ拡張は、元のデータとセマンティックに一致した方法でデータを変更する技術的困難のために、サイバーセキュリティ領域ではまれである。
特にこの欠点は、著作権の制限に満ちた良質で悪意のあるトレーニングデータを取得することの難しさと、銀行や政府のような機関が、大量に存在することのない標的となるマルウェアを受け取ることによる。
本稿では、ML駆動型マルウェア検出装置の精度を高める方法として、マルウェア(および良性)データセットをプログラム的に成長させるバイナリミュータであるMARVOLOを提案する。
MARVOLOは、マルウェアの作者や防御的な良性開発者が日常的に行う変更を模倣した意味保存コード変換を採用しており、意味のある拡張データを生成することができる。
重要なことに、セマンティックス保存変換により、MARVOLOはバイナリの高価なリバースエンジニアリングを強制することなく、オリジナルから新しく生成されたデータサンプルからラベルを安全に伝播することができる。
さらに、MARVOLOは、特定の時間(またはリソース)予算内で生成された多様なデータサンプルの密度を最大化することによって、実践者にとってコストを低くするいくつかの重要な最適化を組み込んでいる。
広範囲にわたる商用マルウェアデータセットと最近のML駆動のマルウェア検出実験により、MARVOLOは潜在的な入力バイナリのごく一部(15%)で運用しながら、アキュラシーを最大5%向上させることが示された。
関連論文リスト
- Data Quality Issues in Vulnerability Detection Datasets [1.6114012813668932]
脆弱性検出は、サイバーセキュリティのためのソフトウェアの潜在的な弱点を特定する上で、極めて難しいタスクである。
深層学習(DL)は検出プロセスの自動化に大きな進歩を遂げた。
この目的のためにDLモデルをトレーニングするために、多くのデータセットが作成されています。
しかし、これらのデータセットは、DLモデルの検出精度の低下につながるいくつかの問題に悩まされる。
論文 参考訳(メタデータ) (2024-10-08T13:31:29Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - CodeMark: Imperceptible Watermarking for Code Datasets against Neural
Code Completion Models [12.15157050363382]
我々は,ユーザ定義の知覚不能な透かしをコードデータセットに埋め込んで,ニューラルネットワーク補完モデルのトレーニングに使用する手法であるCodeMarkを提案する。
CodeMarkはアダプティブなセマンティック保存変換に基づいており、コードデータの正確な機能を保持し、変更をルールブレーカから隠蔽する。
論文 参考訳(メタデータ) (2023-08-28T08:36:53Z) - PEOPL: Characterizing Privately Encoded Open Datasets with Public Labels [59.66777287810985]
プライバシとユーティリティのための情報理論スコアを導入し、不誠実なユーザの平均パフォーマンスを定量化する。
次に、ランダムなディープニューラルネットワークの使用を動機付ける符号化スキームのファミリーを構築する際のプリミティブを理論的に特徴づける。
論文 参考訳(メタデータ) (2023-03-31T18:03:53Z) - DRSM: De-Randomized Smoothing on Malware Classifier Providing Certified
Robustness [58.23214712926585]
我々は,マルウェア検出領域の非ランダム化スムース化技術を再設計し,DRSM(De-Randomized Smoothed MalConv)を開発した。
具体的には,実行可能ファイルの局所構造を最大に保ちながら,逆数バイトの影響を確実に抑制するウィンドウアブレーション方式を提案する。
私たちは、マルウェア実行ファイルの静的検出という領域で、認証された堅牢性を提供する最初の人です。
論文 参考訳(メタデータ) (2023-03-20T17:25:22Z) - Cross Project Software Vulnerability Detection via Domain Adaptation and
Max-Margin Principle [21.684043656053106]
ソフトウェア脆弱性(SV)は、コンピュータソフトウェアの普及により、一般的で深刻な問題となっている。
これら2つの重要な問題に対処するための新しいエンドツーエンドアプローチを提案する。
提案手法は, SVDにおける最重要尺度であるF1尺度の精度を, 使用データセットの2番目に高い手法と比較して1.83%から6.25%に向上させる。
論文 参考訳(メタデータ) (2022-09-19T23:47:22Z) - Fast & Furious: Modelling Malware Detection as Evolving Data Streams [6.6892028759947175]
マルウェアはコンピュータシステムにとって大きな脅威であり、サイバーセキュリティに多くの課題を課している。
本研究では,2つのAndroidデータセットに対するマルウェア分類器に対する概念ドリフトの影響を評価する。
論文 参考訳(メタデータ) (2022-05-24T18:43:40Z) - Anomaly Detection Based on Selection and Weighting in Latent Space [73.01328671569759]
SWADと呼ばれる新しい選択および重み付けに基づく異常検出フレームワークを提案する。
ベンチマークと実世界のデータセットによる実験は、SWADの有効性と優位性を示している。
論文 参考訳(メタデータ) (2021-03-08T10:56:38Z) - Transfer Learning without Knowing: Reprogramming Black-box Machine
Learning Models with Scarce Data and Limited Resources [78.72922528736011]
そこで我々は,ブラックボックス・アタベラル・リプログラミング (BAR) という新しい手法を提案する。
ゼロオーダー最適化とマルチラベルマッピング技術を用いて、BARは入力出力応答のみに基づいてブラックボックスMLモデルをプログラムする。
BARは最先端の手法より優れ、バニラ対逆プログラミング法に匹敵する性能を得る。
論文 参考訳(メタデータ) (2020-07-17T01:52:34Z) - MDEA: Malware Detection with Evolutionary Adversarial Learning [16.8615211682877]
MDEA(Adversarial Malware Detection)モデルであるMDEAは、進化的最適化を使用して攻撃サンプルを作成し、ネットワークを回避攻撃に対して堅牢にする。
進化したマルウェアサンプルでモデルを再トレーニングすることで、その性能は大幅に改善される。
論文 参考訳(メタデータ) (2020-02-09T09:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。