論文の概要: Beyond the Wrapper: Identifying Artifact Reliance in Static Malware Classifiers using TRUSTEE
- arxiv url: http://arxiv.org/abs/2605.07034v1
- Date: Thu, 07 May 2026 23:24:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.672379
- Title: Beyond the Wrapper: Identifying Artifact Reliance in Static Malware Classifiers using TRUSTEE
- Title(参考訳): ラッパーを超えて:TRUSTEEを用いた静的マルウェア分類器のアーチファクト信頼性の同定
- Authors: Riyazuddin Mohammed, Lan Zhang,
- Abstract要約: 現代のサイバーセキュリティは、静的機械学習ベースのマルウェア分類器に大きく依存している。
実行ファイルに適用されるパッキングやその他の非セマンティックな修正は、その信頼性を制限する。
本稿では,ポストホック解釈性XAIツールTRUSTEEを用いた2部フレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.8475753151256695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern cybersecurity relies heavily on static machine-learning-based malware classifiers. However, transformations such as packing and other non-semantic modifications applied to executable files limit their reliability. Malware classifiers often learn these unnecessary artifacts rather than the true binary behavior because of the high association between maliciousness and packing. Moreover, these malware classifiers are black boxes, making it difficult to understand what they learn. To address this issue, we proposed a two-part framework using the post-hoc interpretability XAI tool TRUSTEE, followed by a manual analysis of the top features. We conducted several controlled experiments by varying the dataset composition ratios to understand their impact on the results. The top-ranked features across all experiments, identified by TRUSTEE, were predominantly packing artifacts, portable executable(PE) metadata, and n-grams at the string level, rather than malicious semantics. These results suggest that these malware classifiers are highly sensitive to dataset composition and can misinterpret packing as malicious behavior. Our proposed framework allows for the reproducible diagnosis of such biases and forms a guideline for building more robust and semantically meaningful malware detection models
- Abstract(参考訳): 現代のサイバーセキュリティは、静的機械学習ベースのマルウェア分類器に大きく依存している。
しかし、パッキングなどの変換や、実行ファイルに適用される非意味的な修正は、その信頼性を制限している。
マルウェア分類器は、悪意と梱包の関連性が高いため、真のバイナリ動作ではなく、これらの不要なアーティファクトを学習することが多い。
さらに、これらのマルウェア分類器はブラックボックスであり、彼らが何を学んだかを理解することは困難である。
この問題に対処するため、我々は、ポストホック解釈性XAIツールであるTRUSTEEを使った2部フレームワークを提案し、その後、上位機能について手動で分析した。
本研究は, データセット組成比を変動させることで, 結果への影響を把握し, いくつかの制御実験を行った。
TRUSTEEによって特定されたすべての実験で上位にランクされた機能は、主にアーティファクト、ポータブル実行可能(PE)メタデータ、およびn-gramを悪意のあるセマンティクスではなく文字列レベルでパッケージ化していた。
これらの結果から,これらのマルウェア分類器はデータセットの構成に非常に敏感であり,パッキングを悪意のある行動と誤解釈する可能性があることが示唆された。
提案フレームワークは,このようなバイアスの再現可能な診断を可能にし,より堅牢で意味のあるマルウェア検出モデルを構築するためのガイドラインを形成する。
関連論文リスト
- Certifiably robust malware detectors by design [48.367676529300276]
設計によるロバストなマルウェア検出のための新しいモデルアーキテクチャを提案する。
すべての堅牢な検出器を特定の構造に分解することができ、それを経験的に堅牢なマルウェア検出器の学習に適用できることを示す。
我々のフレームワークERDALTはこの構造に基づいている。
論文 参考訳(メタデータ) (2025-08-10T09:19:29Z) - Semantic Preprocessing for LLM-based Malware Analysis [0.0]
本稿では,Portable Executable ファイルのレポートを生成する新しい前処理手法を提案する。
この前処理の目的は、マルウェアアナリストが理解できるバイナリファイルの意味表現を集めることである。
この前処理を用いて、複雑なデータセット上で平均0.94の重み付きF1スコアを達成する。
論文 参考訳(メタデータ) (2025-06-13T13:39:00Z) - Enhanced Consistency Bi-directional GAN(CBiGAN) for Malware Anomaly Detection [0.25163931116642785]
本稿では,マルウェア異常検出分野におけるCBiGANの適用について紹介する。
我々は、ポータブル実行可能ファイル(PE)とObject Linking and Embedding(OLE)ファイルの両方を含む、いくつかのデータセットを利用する。
次に,214のマルウェアファミリーから自己コンパイルされた悪意のある実行ファイルを含む,PEおよびOLEファイルの多種多様なセットに対して,我々のモデルを評価した。
論文 参考訳(メタデータ) (2025-06-09T02:43:25Z) - Small Effect Sizes in Malware Detection? Make Harder Train/Test Splits! [51.668411293817464]
業界関係者は、モデルが数億台のマシンにデプロイされているため、マルウェア検出精度の小さな改善に気を配っている。
学術研究はしばしば1万のサンプルの順序で公開データセットに制限される。
利用可能なサンプルのプールから難易度ベンチマークを生成するためのアプローチを考案する。
論文 参考訳(メタデータ) (2023-12-25T21:25:55Z) - EMBERSim: A Large-Scale Databank for Boosting Similarity Search in
Malware Analysis [48.5877840394508]
近年,定量化によるマルウェア検出から機械学習への移行が進んでいる。
本稿では、EMBERから始まるバイナリファイルの類似性研究の領域における欠陥に対処することを提案する。
我々は、EMBERに類似情報とマルウェアのクラスタグを付与し、類似性空間のさらなる研究を可能にする。
論文 参考訳(メタデータ) (2023-10-03T06:58:45Z) - DRSM: De-Randomized Smoothing on Malware Classifier Providing Certified
Robustness [58.23214712926585]
我々は,マルウェア検出領域の非ランダム化スムース化技術を再設計し,DRSM(De-Randomized Smoothed MalConv)を開発した。
具体的には,実行可能ファイルの局所構造を最大に保ちながら,逆数バイトの影響を確実に抑制するウィンドウアブレーション方式を提案する。
私たちは、マルウェア実行ファイルの静的検出という領域で、認証された堅牢性を提供する最初の人です。
論文 参考訳(メタデータ) (2023-03-20T17:25:22Z) - Smoothed Embeddings for Certified Few-Shot Learning [63.68667303948808]
我々はランダムな平滑化を数ショットの学習モデルに拡張し、入力を正規化された埋め込みにマッピングする。
この結果は、異なるデータセットの実験によって確認される。
論文 参考訳(メタデータ) (2022-02-02T18:19:04Z) - Improving Robustness of Malware Classifiers using Adversarial Strings
Generated from Perturbed Latent Representations [0.0]
マルウェアの作者は、マルウェアの新しいバージョンで乱数を生成したり、使用量を修正したりすることで、検出を避けようとしている。
提案手法は教師なし方式で入力文字列の潜在表現を学習する。
これらの例を用いて、生成された文字列の逆数集合をトレーニングすることで、分類器の堅牢性を改善する。
論文 参考訳(メタデータ) (2021-10-22T18:12:00Z) - Adversarial EXEmples: A Survey and Experimental Evaluation of Practical
Attacks on Machine Learning for Windows Malware Detection [67.53296659361598]
EXEmplesは、比較的少ない入力バイトを摂動することで、機械学習に基づく検出をバイパスすることができる。
我々は、機械学習モデルに対する過去の攻撃を包含し、一般化するだけでなく、3つの新たな攻撃を含む統一フレームワークを開発する。
これらの攻撃はFull DOS、Extended、Shiftと呼ばれ、DOSヘッダをそれぞれ操作し、拡張し、第1セクションの内容を変更することで、敵のペイロードを注入する。
論文 参考訳(メタデータ) (2020-08-17T07:16:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。