論文の概要: Cross-Domain Malware Detection via Probability-Level Fusion of Lightweight Gradient Boosting Models
- arxiv url: http://arxiv.org/abs/2509.00476v1
- Date: Sat, 30 Aug 2025 12:18:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.248857
- Title: Cross-Domain Malware Detection via Probability-Level Fusion of Lightweight Gradient Boosting Models
- Title(参考訳): 軽量グラディエントブースティングモデルの確率レベル融合によるクロスドメインマルウェア検出
- Authors: Omar Khalid Ali Mohamed,
- Abstract要約: 本稿では,3つの異なるデータセットにまたがる確率レベル融合を利用したマルウェア検出のための新しいフレームワークを提案する。
提案手法は,各データセット上で個々のLightGBM分類器を訓練し,効率性を確保するために最上位の予測特徴を選択し,グリッドサーチによって決定された最適化重みを用いて予測確率を融合する。
実験により,我々の融合アプローチは,ドメイン間検証セット上で0.823のマクロF1スコアを実現し,個々のモデルよりも大幅に優れ,より優れた一般化を提供することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The escalating sophistication of malware necessitates robust detection mechanisms that generalize across diverse data sources. Traditional single-dataset models struggle with cross-domain generalization and often incur high computational costs. This paper presents a novel, lightweight framework for malware detection that employs probability-level fusion across three distinct datasets: EMBER (static features), API Call Sequences (behavioral features), and CIC Obfuscated Memory (memory patterns). Our method trains individual LightGBM classifiers on each dataset, selects top predictive features to ensure efficiency, and fuses their prediction probabilities using optimized weights determined via grid search. Extensive experiments demonstrate that our fusion approach achieves a macro F1-score of 0.823 on a cross-domain validation set, significantly outperforming individual models and providing superior generalization. The framework maintains low computational overhead, making it suitable for real-time deployment, and all code and data are provided for full reproducibility.
- Abstract(参考訳): マルウェアの高度化は、多様なデータソースをまたいで一般化する堅牢な検出メカニズムを必要とする。
伝統的な単一データセットモデルはクロスドメインの一般化に苦慮し、しばしば高い計算コストを発生させる。
本稿では、EMBER(静的特徴)、APIコールシーケンス(挙動特徴)、CIC Obfuscated Memory(メモリパターン)という3つの異なるデータセットにまたがる確率レベル融合を利用した、マルウェア検出のための新しい軽量なフレームワークを提案する。
提案手法は,各データセット上で個々のLightGBM分類器を訓練し,効率性を確保するために最上位の予測特徴を選択し,グリッドサーチによって決定された最適化重みを用いて予測確率を融合する。
総合的な実験により、我々の融合アプローチは、ドメイン間の検証セットにおいて0.823のマクロF1スコアを達成し、個々のモデルを大幅に上回り、より優れた一般化を提供することを示した。
フレームワークは計算オーバーヘッドを低く保ち、リアルタイムデプロイメントに適しており、すべてのコードとデータが完全な再現性のために提供されている。
関連論文リスト
- Evaluating Ensemble and Deep Learning Models for Static Malware Detection with Dimensionality Reduction Using the EMBER Dataset [0.0]
本研究では,EMBERデータセットを用いた静的マルウェア検出における機械学習アルゴリズムの有効性について検討した。
LightGBM, XGBoost, CatBoost, Random Forest, Extra Trees, HistGradientBoosting, k-Nearest Neighbors (KNN), TabNetの8つの分類モデルを評価した。
モデルは精度、精度、リコール、F1スコア、AUCに基づいて評価され、予測性能とロバスト性の両方を調べる。
論文 参考訳(メタデータ) (2025-07-22T18:45:10Z) - Ensemble-Based Deepfake Detection using State-of-the-Art Models with Robust Cross-Dataset Generalisation [0.0]
機械学習ベースのDeepfake検出モデルは、ベンチマークデータセットで印象的な結果を得た。
しかし、アウト・オブ・ディストリビューションデータで評価すると、その性能は著しく低下することが多い。
本研究では,ディープフェイク検出システムの一般化のためのアンサンブルに基づくアプローチについて検討する。
論文 参考訳(メタデータ) (2025-07-08T13:54:48Z) - CLIP Meets Diffusion: A Synergistic Approach to Anomaly Detection [54.85000884785013]
異常検出は、異常の定義の曖昧さ、異常型の多様性、トレーニングデータの不足による複雑な問題である。
識別的基盤モデルと生成的基礎モデルの両方を活用するCLIPfusionを提案する。
本手法は, 異常検出の多面的課題に対処する上で, マルチモーダル・マルチモデル融合の有効性を裏付けるものである。
論文 参考訳(メタデータ) (2025-06-13T13:30:15Z) - Breaking Silos: Adaptive Model Fusion Unlocks Better Time Series Forecasting [64.45587649141842]
時系列予測は多くの現実世界のアプリケーションにおいて重要な役割を果たす。
1つのモデルは、異なるテストサンプルで一貫して他よりも優れていますが、(ii) それぞれのモデルは特定のケースで優れています。
異種モデルのサンプルレベル適応融合による時系列予測のためのフレームワークであるTimeFuseを紹介する。
論文 参考訳(メタデータ) (2025-05-24T00:45:07Z) - GM-DF: Generalized Multi-Scenario Deepfake Detection [49.072106087564144]
既存の偽造検出は、通常、単一のドメインでのトレーニングモデルのパラダイムに従う。
本稿では,複数の顔偽造検出データセットを共同で訓練した場合のディープフェイク検出モデルの一般化能力について詳しく検討する。
論文 参考訳(メタデータ) (2024-06-28T17:42:08Z) - IoTGeM: Generalizable Models for Behaviour-Based IoT Attack Detection [3.3772986620114387]
IoTGeMはIoTネットワークアタックをモデル化するためのアプローチで、汎用性を重視しながら、検出とパフォーマンスの向上にも寄与する。
厳格に独立したトレインとテストデータセットを使用して、モデルを構築、テストします。
IoTGeMは、ACK、HTTP、Syn、MHD、PS攻撃で99%のF1スコア、UDP攻撃で94%のF1スコアを達成した。
論文 参考訳(メタデータ) (2023-10-17T21:46:43Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Efficient Data-specific Model Search for Collaborative Filtering [56.60519991956558]
協調フィルタリング(CF)はレコメンダシステムの基本的なアプローチである。
本稿では,機械学習(AutoML)の最近の進歩を動機として,データ固有のCFモデルを設計することを提案する。
ここでキーとなるのは、最先端(SOTA)のCFメソッドを統一し、それらを入力エンコーディング、埋め込み関数、インタラクション、予測関数の非結合ステージに分割する新しいフレームワークである。
論文 参考訳(メタデータ) (2021-06-14T14:30:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。