論文の概要: Mind the Gap: On Bridging the Semantic Gap between Machine Learning and
Information Security
- arxiv url: http://arxiv.org/abs/2005.01800v1
- Date: Mon, 4 May 2020 19:19:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 00:40:13.856110
- Title: Mind the Gap: On Bridging the Semantic Gap between Machine Learning and
Information Security
- Title(参考訳): Mind the Gap: マシンラーニングと情報セキュリティのセマンティックギャップのブリッジについて
- Authors: Michael R. Smith, Nicholas T. Johnson, Joe B. Ingram, Armida J.
Carbajal, Ramyaa Ramyaa, Evelyn Domschot, Christopher C. Lamb, Stephen J.
Verzi, W. Philip Kegelmeyer
- Abstract要約: 機械学習がマルウェアの振る舞いを学習し、新しいマルウェアサンプルを検出し、情報セキュリティを大幅に改善する可能性にもかかわらず、デプロイされたシステムにおいて、高影響のML技術はほとんどない。
我々は、InfoSecのハイインパクト化におけるMLの失敗は、2つのコミュニティ間の断絶に起因していると仮定する。
具体的には、MLが使用する現在のデータセットと表現は、実行可能体の振る舞いを学ぶのに適していない。
- 参考スコア(独自算出の注目度): 3.9629825964453986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the potential of Machine learning (ML) to learn the behavior of
malware, detect novel malware samples, and significantly improve information
security (InfoSec) we see few, if any, high-impact ML techniques in deployed
systems, notwithstanding multiple reported successes in open literature. We
hypothesize that the failure of ML in making high-impacts in InfoSec are rooted
in a disconnect between the two communities as evidenced by a semantic gap---a
difference in how executables are described (e.g. the data and features
extracted from the data). Specifically, current datasets and representations
used by ML are not suitable for learning the behaviors of an executable and
differ significantly from those used by the InfoSec community. In this paper,
we survey existing datasets used for classifying malware by ML algorithms and
the features that are extracted from the data. We observe that: 1) the current
set of extracted features are primarily syntactic, not behavioral, 2) datasets
generally contain extreme exemplars producing a dataset in which it is easy to
discriminate classes, and 3) the datasets provide significantly different
representations of the data encountered in real-world systems. For ML to make
more of an impact in the InfoSec community requires a change in the data
(including the features and labels) that is used to bridge the current semantic
gap. As a first step in enabling more behavioral analyses, we label existing
malware datasets with behavioral features using open-source threat reports
associated with malware families. This behavioral labeling alters the analysis
from identifying intent (e.g. good vs bad) or malware family membership to an
analysis of which behaviors are exhibited by an executable. We offer the
annotations with the hope of inspiring future improvements in the data that
will further bridge the semantic gap between the ML and InfoSec communities.
- Abstract(参考訳): マルウェアの振る舞いを学習し、新しいマルウェアのサンプルを検出し、情報セキュリティ(InfoSec)を大幅に改善する機械学習(ML)の可能性にもかかわらず、オープンな文献で何度も報告された成功にもかかわらず、デプロイシステムにおける高影響のML技術はほとんどない。
我々は、InfoSecの高インパクト化におけるMLの失敗は、セマンティックギャップによって証明された2つのコミュニティ間の断絶に根ざしていると仮定する。
具体的には、MLが使用する現在のデータセットと表現は、実行可能な動作を学ぶのに適せず、InfoSecコミュニティが使用するものとは大きく異なる。
本稿では,MLアルゴリズムによるマルウェアの分類に用いられる既存のデータセットとそのデータから抽出された特徴について調査する。
私たちはそれを観察します
1) 現在の抽出された特徴のセットは、主に構文的であり、行動的ではない。
2)データセットは一般に,クラスを判別しやすいデータセットを生成する極端な例を含む。
3) データセットは,実世界のシステムで遭遇するデータの,著しく異なる表現を提供する。
MLがInfoSecコミュニティにより多くの影響を与えるためには、現在のセマンティックギャップを埋めるために使用されるデータ(機能やラベルを含む)を変更する必要がある。
行動分析を可能にする第一歩として,マルウェアファミリーに関連するオープンソース脅威レポートを用いて,既存のマルウェアデータセットに行動特徴をラベル付けする。
この動作ラベリングは、意図の特定(例えば、善か悪か)やマルウェアファミリーのメンバーシップから、実行可能ファイルによって提示される行動の分析へと分析を変化させる。
私たちは、MLとInfoSecコミュニティ間のセマンティックギャップをさらに橋渡しするデータの将来的な改善を期待して、アノテーションを提供しています。
関連論文リスト
- Multi-label Classification for Android Malware Based on Active Learning [7.599125552187342]
本稿ではMLCDroidを提案する。MLCDroidは、事前に定義された悪意のある動作の存在を直接示すことができるマルチラベル分類手法である。
我々は,70のアルゴリズム組み合わせの結果を比較し,有効性(73.3%)を評価する。
これは、きめ細かい悪意のある振る舞いについて、より詳細な情報を提供することを目的とした、最初のマルチラベルAndroidマルウェア分類アプローチである。
論文 参考訳(メタデータ) (2024-10-09T01:09:24Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Don't Push the Button! Exploring Data Leakage Risks in Machine Learning and Transfer Learning [0.0]
本稿では、意図しない情報がトレーニングデータを汚染し、モデルの性能評価に影響を与える機械学習(ML)における重要な問題に対処する。
新たなデータに対する評価と実際のパフォーマンスの相違は大きな懸念事項である。
データ漏洩と対処中の特定のタスクとの関係を調査し、Transfer Learningにおけるその発生を調査し、標準的なインダクティブMLとトランスダクティブMLフレームワークを比較します。
論文 参考訳(メタデータ) (2024-01-24T20:30:52Z) - Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - EMBERSim: A Large-Scale Databank for Boosting Similarity Search in
Malware Analysis [48.5877840394508]
近年,定量化によるマルウェア検出から機械学習への移行が進んでいる。
本稿では、EMBERから始まるバイナリファイルの類似性研究の領域における欠陥に対処することを提案する。
我々は、EMBERに類似情報とマルウェアのクラスタグを付与し、類似性空間のさらなる研究を可能にする。
論文 参考訳(メタデータ) (2023-10-03T06:58:45Z) - Nebula: Self-Attention for Dynamic Malware Analysis [14.710331873072146]
我々は、多様な行動表現とフォーマットをまたいで一般化する、汎用的で自己注意型トランスフォーマーベースのニューラルアーキテクチャであるNebulaを紹介する。
我々は,異なる動的解析プラットフォームから取得した3つのデータセットを用いて,マルウェア検出と分類作業の両方について実験を行った。
自己教師付き学習事前学習は、トレーニングデータの20%しか持たない完全教師付きモデルの性能とどのように一致しているかを示す。
論文 参考訳(メタデータ) (2023-09-19T09:24:36Z) - Decoding the Secrets of Machine Learning in Malware Classification: A
Deep Dive into Datasets, Feature Extraction, and Model Performance [25.184668510417545]
これまでに670世帯の67Kサンプル(それぞれ100サンプル)で、最大のバランスのとれたマルウェアデータセットを収集しました。
我々は、我々のデータセットを用いて、マルウェア検出と家族分類のための最先端モデルを訓練する。
以上の結果から,静的な特徴は動的機能よりも優れており,両者を組み合わせることで,静的な特徴よりも限界的な改善がもたらされることがわかった。
論文 参考訳(メタデータ) (2023-07-27T07:18:10Z) - S3M: Siamese Stack (Trace) Similarity Measure [55.58269472099399]
本稿では、深層学習に基づくスタックトレースの類似性を計算する最初のアプローチであるS3Mを紹介します。
BiLSTMエンコーダと、類似性を計算するための完全接続型分類器をベースとしている。
私たちの実験は、オープンソースデータとプライベートなJetBrainsデータセットの両方において、最先端のアプローチの優位性を示しています。
論文 参考訳(メタデータ) (2021-03-18T21:10:41Z) - D2A: A Dataset Built for AI-Based Vulnerability Detection Methods Using
Differential Analysis [55.15995704119158]
静的解析ツールによって報告されたラベル問題に対する差分解析に基づくアプローチであるD2Aを提案する。
D2Aを使用して大きなラベル付きデータセットを生成し、脆弱性識別のためのモデルをトレーニングします。
論文 参考訳(メタデータ) (2021-02-16T07:46:53Z) - Meta Discovery: Learning to Discover Novel Classes given Very Limited
Data [59.90813997957849]
本稿では,L2DNCをメタラーニングにリンクすることで,L2DNCの分析と改善を行う。
L2DNCは理論的に解けるだけでなく、メタラーニングアルゴリズムによって、提案したフレームワークに適合するようにわずかに修正され、経験的に解決できる。
論文 参考訳(メタデータ) (2021-02-08T04:53:14Z) - Why an Android App is Classified as Malware? Towards Malware
Classification Interpretation [34.59397128785141]
本稿では,マルウェアを高精度に分類し,その分類結果を説明する新しいMLベースのアプローチ(XMal)を提案する。
XMalは多層パーセプトロン(MLP)とアテンション機構をヒンジし、また分類結果に関連する重要な特徴をピンポイントする。
本研究は,Androidのマルウェア検出と解析の研究を通じて,解釈可能なMLを覗き見する。
論文 参考訳(メタデータ) (2020-04-24T03:05:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。