論文の概要: A Unified Evaluation of Learning-Based Similarity Techniques for Malware Detection
- arxiv url: http://arxiv.org/abs/2602.15376v1
- Date: Tue, 17 Feb 2026 06:16:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:17.992419
- Title: A Unified Evaluation of Learning-Based Similarity Techniques for Malware Detection
- Title(参考訳): マルウェア検出のための学習ベース類似性の統一評価
- Authors: Udbhav Prasad, Aniesh Chawla,
- Abstract要約: 類似性に基づく手法は近似マッチングを可能にし、関連するバイトシーケンスが測定可能な類似の指紋を生成する。
セキュリティ研究者は、類似性の消化や局所性に敏感なハッシュなど、さまざまなアプローチを提案している。
本稿では,大規模な公開データセットを用いた学習ベース分類と類似性手法の体系的比較について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Cryptographic digests (e.g., MD5, SHA-256) are designed to provide exact identity. Any single-bit change in the input produces a completely different hash, which is ideal for integrity verification but limits their usefulness in many real-world tasks like threat hunting, malware analysis and digital forensics, where adversaries routinely introduce minor transformations. Similarity-based techniques address this limitation by enabling approximate matching, allowing related byte sequences to produce measurably similar fingerprints. Modern enterprises manage tens of thousands of endpoints with billions of files, making the effectiveness and scalability of the proposed techniques more important than ever in security applications. Security researchers have proposed a range of approaches, including similarity digests and locality-sensitive hashes (e.g., ssdeep, sdhash, TLSH), as well as more recent machine-learning-based methods that generate embeddings from file features. However, these techniques have largely been evaluated in isolation, using disparate datasets and evaluation criteria. This paper presents a systematic comparison of learning-based classification and similarity methods using large, publicly available datasets. We evaluate each method under a unified experimental framework with industry-accepted metrics. To our knowledge, this is the first reproducible study to benchmark these diverse learning-based similarity techniques side by side for real-world security workloads. Our results show that no single approach performs well across all dimensions; instead, each exhibits distinct trade-offs, indicating that effective malware analysis and threat-hunting platforms must combine complementary classification and similarity techniques rather than rely on a single method.
- Abstract(参考訳): 暗号ダイジェスト(例:MD5、SHA-256)は正確なアイデンティティを提供するように設計されている。
入力のシングルビット変更は、完全に異なるハッシュを生成するため、整合性検証には理想的だが、脅威ハンティング、マルウェア分析、デジタル法医学といった現実世界の多くのタスクにおいて、敵が定期的に小さな変換を導入することで、それらの有用性を制限している。
類似性に基づく手法は、近似マッチングを可能にし、関連するバイトシーケンスが測定可能な類似の指紋を生成することによって、この制限に対処する。
現代の企業は数十億のファイルで数万のエンドポイントを管理しており、セキュリティアプリケーションにおいて提案された技術の有効性とスケーラビリティをより重要にしている。
セキュリティ研究者は、類似性消化や局所性に敏感なハッシュ(例えば、ssdeep、sdhash、TLSH)、ファイル機能から埋め込みを生成する機械学習ベースの方法など、さまざまなアプローチを提案している。
しかし、これらの手法は、異なるデータセットと評価基準を用いて、主に分離して評価されてきた。
本稿では,大規模な公開データセットを用いた学習ベース分類と類似性手法の体系的比較について述べる。
業界が受け入れるメトリクスを統一した実験フレームワークで評価する。
私たちの知る限り、これは現実世界のセキュリティワークロードに対して、これらの多様な学習ベースの類似性テクニックを並べてベンチマークする、初めての再現可能な研究です。
提案手法は, マルウェア解析と脅威追跡プラットフォームにおいて, 一つの手法に頼らず, 相補的分類と類似性を組み合わせなければならないことを示す。
関連論文リスト
- Deep Learning Fusion For Effective Malware Detection: Leveraging Visual Features [12.431734971186673]
本研究では,マルウェアの実行可能量の異なるモードで学習した畳み込みニューラルネットワークモデルを融合する能力について検討する。
我々は3種類の視覚的マルウェアを利用した新しいマルチモーダル融合アルゴリズムを提案している。
提案した戦略は、与えられたデータセット内のマルウェアを識別する際の検出レート1.00(0-1)である。
論文 参考訳(メタデータ) (2024-05-23T08:32:40Z) - Semantic-embedded Similarity Prototype for Scene Recognition [12.236534954126155]
本稿では,意味的知識に基づく類似性プロトタイプを提案する。
これにより、実際の計算コストを増大させることなく、シーン認識ネットワークの精度を向上させることができる。
我々の類似性プロトタイプは、既存のネットワークの性能を向上するとともに、実際の展開における計算負荷の増大を回避します。
論文 参考訳(メタデータ) (2023-08-11T01:11:46Z) - Better Understanding Differences in Attribution Methods via Systematic Evaluations [57.35035463793008]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
これらの評価手法を用いて、広範囲のモデルにおいて広く用いられている属性手法の長所と短所について検討する。
論文 参考訳(メタデータ) (2023-03-21T14:24:58Z) - Towards Better Understanding Attribution Methods [77.1487219861185]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
また,いくつかの属性法の性能を著しく向上する処理後平滑化ステップを提案する。
論文 参考訳(メタデータ) (2022-05-20T20:50:17Z) - Human-in-the-Loop Disinformation Detection: Stance, Sentiment, or
Something Else? [93.91375268580806]
政治とパンデミックは、機械学習対応の偽ニュース検出アルゴリズムの開発に十分な動機を与えている。
既存の文献は、主に完全自動化されたケースに焦点を当てているが、その結果得られた技術は、軍事応用に必要な様々なトピック、ソース、時間スケールに関する偽情報を確実に検出することはできない。
既に利用可能なアナリストを人間のループとして活用することにより、感情分析、アスペクトベースの感情分析、姿勢検出といった標準的な機械学習技術は、部分的に自動化された偽情報検出システムに使用するためのもっとも有効な方法となる。
論文 参考訳(メタデータ) (2021-11-09T13:30:34Z) - A Comprehensive Study on Learning-Based PE Malware Family Classification
Methods [9.142578100395909]
Portable Executable (PE) マルウェアは、ボリュームと洗練の両方の観点から一貫して進化してきた。
学習ベースのアルゴリズムを使用する3つの主流のアプローチは、各メソッドが取る入力形式によって分類される。
本研究では,4つの異なるデータセットと一貫した実験設定に基づいて,学習に基づくPEマルウェア分類手法の徹底的な実証的研究を行う。
論文 参考訳(メタデータ) (2021-10-29T05:32:28Z) - Cross-Domain Similarity Learning for Face Recognition in Unseen Domains [90.35908506994365]
本研究では,cdt(cross-domain triplet, クロスドメイントリプレット)の損失を推測する新しいクロスドメインメトリック学習損失法を提案する。
CDT損失は、一つのドメインからコンパクトな特徴クラスタを強制することによって意味論的に意味のある特徴の学習を促進する。
本手法では,トレーニング中,注意深いハードペアサンプルマイニングおよびフィルタリング戦略は必要としない。
論文 参考訳(メタデータ) (2021-03-12T19:48:01Z) - CIMON: Towards High-quality Hash Codes [63.37321228830102]
我々はtextbfComprehensive stextbfImilarity textbfMining と ctextbfOnsistency leartextbfNing (CIMON) という新しい手法を提案する。
まず、グローバルな洗練と類似度統計分布を用いて、信頼性とスムーズなガイダンスを得る。第二に、意味的整合性学習とコントラスト的整合性学習の両方を導入して、乱不変と差別的ハッシュコードの両方を導出する。
論文 参考訳(メタデータ) (2020-10-15T14:47:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。