Fugu-MT 論文翻訳(概要): Mind the Gap: On Bridging the Semantic Gap between Machine Learning and Information Security

論文の概要: Mind the Gap: On Bridging the Semantic Gap between Machine Learning and Information Security

arxiv url: http://arxiv.org/abs/2005.01800v1
Date: Mon, 4 May 2020 19:19:32 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-07 00:40:13.856110
Title: Mind the Gap: On Bridging the Semantic Gap between Machine Learning and Information Security
Title（参考訳）: Mind the Gap: マシンラーニングと情報セキュリティのセマンティックギャップのブリッジについて
Authors: Michael R. Smith, Nicholas T. Johnson, Joe B. Ingram, Armida J. Carbajal, Ramyaa Ramyaa, Evelyn Domschot, Christopher C. Lamb, Stephen J. Verzi, W. Philip Kegelmeyer
Abstract要約: 機械学習がマルウェアの振る舞いを学習し、新しいマルウェアサンプルを検出し、情報セキュリティを大幅に改善する可能性にもかかわらず、デプロイされたシステムにおいて、高影響のML技術はほとんどない。我々は、InfoSecのハイインパクト化におけるMLの失敗は、2つのコミュニティ間の断絶に起因していると仮定する。具体的には、MLが使用する現在のデータセットと表現は、実行可能体の振る舞いを学ぶのに適していない。
参考スコア（独自算出の注目度）: 3.9629825964453986
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the potential of Machine learning (ML) to learn the behavior of malware, detect novel malware samples, and significantly improve information security (InfoSec) we see few, if any, high-impact ML techniques in deployed systems, notwithstanding multiple reported successes in open literature. We hypothesize that the failure of ML in making high-impacts in InfoSec are rooted in a disconnect between the two communities as evidenced by a semantic gap---a difference in how executables are described (e.g. the data and features extracted from the data). Specifically, current datasets and representations used by ML are not suitable for learning the behaviors of an executable and differ significantly from those used by the InfoSec community. In this paper, we survey existing datasets used for classifying malware by ML algorithms and the features that are extracted from the data. We observe that: 1) the current set of extracted features are primarily syntactic, not behavioral, 2) datasets generally contain extreme exemplars producing a dataset in which it is easy to discriminate classes, and 3) the datasets provide significantly different representations of the data encountered in real-world systems. For ML to make more of an impact in the InfoSec community requires a change in the data (including the features and labels) that is used to bridge the current semantic gap. As a first step in enabling more behavioral analyses, we label existing malware datasets with behavioral features using open-source threat reports associated with malware families. This behavioral labeling alters the analysis from identifying intent (e.g. good vs bad) or malware family membership to an analysis of which behaviors are exhibited by an executable. We offer the annotations with the hope of inspiring future improvements in the data that will further bridge the semantic gap between the ML and InfoSec communities.
Abstract（参考訳）: マルウェアの振る舞いを学習し、新しいマルウェアのサンプルを検出し、情報セキュリティ(InfoSec)を大幅に改善する機械学習(ML)の可能性にもかかわらず、オープンな文献で何度も報告された成功にもかかわらず、デプロイシステムにおける高影響のML技術はほとんどない。我々は、InfoSecの高インパクト化におけるMLの失敗は、セマンティックギャップによって証明された2つのコミュニティ間の断絶に根ざしていると仮定する。具体的には、MLが使用する現在のデータセットと表現は、実行可能な動作を学ぶのに適せず、InfoSecコミュニティが使用するものとは大きく異なる。本稿では,MLアルゴリズムによるマルウェアの分類に用いられる既存のデータセットとそのデータから抽出された特徴について調査する。私たちはそれを観察します 1) 現在の抽出された特徴のセットは、主に構文的であり、行動的ではない。 2)データセットは一般に,クラスを判別しやすいデータセットを生成する極端な例を含む。 3) データセットは,実世界のシステムで遭遇するデータの,著しく異なる表現を提供する。 MLがInfoSecコミュニティにより多くの影響を与えるためには、現在のセマンティックギャップを埋めるために使用されるデータ(機能やラベルを含む)を変更する必要がある。行動分析を可能にする第一歩として,マルウェアファミリーに関連するオープンソース脅威レポートを用いて,既存のマルウェアデータセットに行動特徴をラベル付けする。この動作ラベリングは、意図の特定(例えば、善か悪か)やマルウェアファミリーのメンバーシップから、実行可能ファイルによって提示される行動の分析へと分析を変化させる。私たちは、MLとInfoSecコミュニティ間のセマンティックギャップをさらに橋渡しするデータの将来的な改善を期待して、アノテーションを提供しています。

関連論文リスト

Hey, That's My Data! Label-Only Dataset Inference in Large Language Models [63.35066172530291]
CatShiftはラベルのみのデータセット推論フレームワークである。 LLMは、新しいデータに晒されたとき、学習した知識を上書きする傾向にある。
論文参考訳（メタデータ） (2025-06-06T13:02:59Z)
Multi-label Classification for Android Malware Based on Active Learning [7.599125552187342]
本稿ではMLCDroidを提案する。MLCDroidは、事前に定義された悪意のある動作の存在を直接示すことができるマルチラベル分類手法である。我々は,70のアルゴリズム組み合わせの結果を比較し,有効性(73.3%)を評価する。これは、きめ細かい悪意のある振る舞いについて、より詳細な情報を提供することを目的とした、最初のマルチラベルAndroidマルウェア分類アプローチである。
論文参考訳（メタデータ） (2024-10-09T01:09:24Z)
Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文参考訳（メタデータ） (2024-06-02T16:53:21Z)
Don't Push the Button! Exploring Data Leakage Risks in Machine Learning and Transfer Learning [0.0]
本稿では、意図しない情報がトレーニングデータを汚染し、モデルの性能評価に影響を与える機械学習(ML)における重要な問題に対処する。新たなデータに対する評価と実際のパフォーマンスの相違は大きな懸念事項である。データ漏洩と対処中の特定のタスクとの関係を調査し、Transfer Learningにおけるその発生を調査し、標準的なインダクティブMLとトランスダクティブMLフレームワークを比較します。
論文参考訳（メタデータ） (2024-01-24T20:30:52Z)
Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文参考訳（メタデータ） (2023-11-06T19:00:05Z)
EMBERSim: A Large-Scale Databank for Boosting Similarity Search in Malware Analysis [48.5877840394508]
近年,定量化によるマルウェア検出から機械学習への移行が進んでいる。本稿では、EMBERから始まるバイナリファイルの類似性研究の領域における欠陥に対処することを提案する。我々は、EMBERに類似情報とマルウェアのクラスタグを付与し、類似性空間のさらなる研究を可能にする。
論文参考訳（メタデータ） (2023-10-03T06:58:45Z)
Nebula: Self-Attention for Dynamic Malware Analysis [14.710331873072146]
我々は、多様な行動表現とフォーマットをまたいで一般化する、汎用的で自己注意型トランスフォーマーベースのニューラルアーキテクチャであるNebulaを紹介する。我々は,異なる動的解析プラットフォームから取得した3つのデータセットを用いて,マルウェア検出と分類作業の両方について実験を行った。自己教師付き学習事前学習は、トレーニングデータの20%しか持たない完全教師付きモデルの性能とどのように一致しているかを示す。
論文参考訳（メタデータ） (2023-09-19T09:24:36Z)
Decoding the Secrets of Machine Learning in Malware Classification: A Deep Dive into Datasets, Feature Extraction, and Model Performance [25.184668510417545]
これまでに670世帯の67Kサンプル(それぞれ100サンプル)で、最大のバランスのとれたマルウェアデータセットを収集しました。我々は、我々のデータセットを用いて、マルウェア検出と家族分類のための最先端モデルを訓練する。以上の結果から,静的な特徴は動的機能よりも優れており,両者を組み合わせることで,静的な特徴よりも限界的な改善がもたらされることがわかった。
論文参考訳（メタデータ） (2023-07-27T07:18:10Z)
Towards a Fair Comparison and Realistic Design and Evaluation Framework of Android Malware Detectors [63.75363908696257]
一般的な評価フレームワークを用いて,Androidのマルウェア検出に関する10の研究成果を分析した。データセットの作成やデザイナの設計に考慮しない場合、トレーニングされたMLモデルに大きく影響する5つの要因を特定します。その結果,MLに基づく検出器は楽観的に評価され,良好な結果が得られた。
論文参考訳（メタデータ） (2022-05-25T08:28:08Z)
S3M: Siamese Stack (Trace) Similarity Measure [55.58269472099399]
本稿では、深層学習に基づくスタックトレースの類似性を計算する最初のアプローチであるS3Mを紹介します。 BiLSTMエンコーダと、類似性を計算するための完全接続型分類器をベースとしている。私たちの実験は、オープンソースデータとプライベートなJetBrainsデータセットの両方において、最先端のアプローチの優位性を示しています。
論文参考訳（メタデータ） (2021-03-18T21:10:41Z)
D2A: A Dataset Built for AI-Based Vulnerability Detection Methods Using Differential Analysis [55.15995704119158]
静的解析ツールによって報告されたラベル問題に対する差分解析に基づくアプローチであるD2Aを提案する。 D2Aを使用して大きなラベル付きデータセットを生成し、脆弱性識別のためのモデルをトレーニングします。
論文参考訳（メタデータ） (2021-02-16T07:46:53Z)
Meta Discovery: Learning to Discover Novel Classes given Very Limited Data [59.90813997957849]
本稿では,L2DNCをメタラーニングにリンクすることで,L2DNCの分析と改善を行う。 L2DNCは理論的に解けるだけでなく、メタラーニングアルゴリズムによって、提案したフレームワークに適合するようにわずかに修正され、経験的に解決できる。
論文参考訳（メタデータ） (2021-02-08T04:53:14Z)
Why an Android App is Classified as Malware? Towards Malware Classification Interpretation [34.59397128785141]
本稿では,マルウェアを高精度に分類し,その分類結果を説明する新しいMLベースのアプローチ(XMal)を提案する。 XMalは多層パーセプトロン(MLP)とアテンション機構をヒンジし、また分類結果に関連する重要な特徴をピンポイントする。本研究は,Androidのマルウェア検出と解析の研究を通じて,解釈可能なMLを覗き見する。
論文参考訳（メタデータ） (2020-04-24T03:05:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。