論文の概要: CAFE-GB: Scalable and Stable Feature Selection for Malware Detection via Chunk-wise Aggregated Gradient Boosting
- arxiv url: http://arxiv.org/abs/2601.15754v1
- Date: Thu, 22 Jan 2026 08:43:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.54333
- Title: CAFE-GB: Scalable and Stable Feature Selection for Malware Detection via Chunk-wise Aggregated Gradient Boosting
- Title(参考訳): CAFE-GB:チャンクワイズ・アグリゲート・グラディエント・ブースティングによるマルウェア検出のためのスケーラブルで安定な特徴選択
- Authors: Ajvad Haneef K, Karan Kuwar Singh, Madhu Kumar S D,
- Abstract要約: 本稿では,高次元マルウェア検出のための安定かつ一貫した機能ランキングを作成するために,スケーラブルな特徴選択フレームワークを提案する。
CEFA-GBは、データを重なり合うチャンクに分割し、グラデーションブースティングモデルを使用して局所的な特徴重要度を推定し、これらの見積を集約する。
精度、F1スコア、ROC-AUC、PR-AUCなど、複数のメトリクスにまたがるフル機能のベースラインとパフォーマンスの同等性を実現すると同時に、特徴の寸法を95%以上削減する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-dimensional malware datasets often exhibit feature redundancy, instability, and scalability limitations, which hinder the effectiveness and interpretability of machine learning-based malware detection systems. Although feature selection is commonly employed to mitigate these issues, many existing approaches lack robustness when applied to large-scale and heterogeneous malware data. To address this gap, this paper proposes CAFE-GB (Chunk-wise Aggregated Feature Estimation using Gradient Boosting), a scalable feature selection framework designed to produce stable and globally consistent feature rankings for high-dimensional malware detection. CAFE-GB partitions training data into overlapping chunks, estimates local feature importance using gradient boosting models, and aggregates these estimates to derive a robust global ranking. Feature budget selection is performed separately through a systematic k-selection and stability analysis to balance detection performance and robustness. The proposed framework is evaluated on two large-scale malware datasets: BODMAS and CIC-AndMal2020, representing large and diverse malware feature spaces. Experimental results show that classifiers trained on CAFE-GB -selected features achieve performance parity with full-feature baselines across multiple metrics, including Accuracy, F1-score, MCC, ROC-AUC, and PR-AUC, while reducing feature dimensionality by more than 95\%. Paired Wilcoxon signed-rank tests confirm that this reduction does not introduce statistically significant performance degradation. Additional analyses demonstrate low inter-feature redundancy and improved interpretability through SHAP-based explanations. Runtime and memory profiling further indicate reduced downstream classification overhead. Overall, CAFE-GB provides a stable, interpretable, and scalable feature selection strategy for large-scale malware detection.
- Abstract(参考訳): 高次元のマルウェアデータセットは、しばしば特徴の冗長性、不安定性、スケーラビリティの制限を示し、機械学習ベースのマルウェア検出システムの有効性と解釈性を妨げている。
機能選択はこれらの問題を緩和するために一般的に用いられているが、大規模で異種なマルウェアデータに適用する場合、多くの既存手法は堅牢性に欠ける。
このギャップに対処するために,高次元マルウェア検出のための安定かつ一貫した特徴ランキングを生成するためのスケーラブルな特徴選択フレームワークであるCAFE-GB(Chunk-wise Aggregated Feature Estimation using Gradient Boosting)を提案する。
CAFE-GBは、データを重なり合うチャンクに分割し、グラデーションブースティングモデルを用いて局所的な特徴重要度を推定し、これらの見積もりを集約し、堅牢なグローバルランキングを導き出す。
特徴予算選択は、系統的なk-選択と安定性解析によって別々に行われ、検出性能とロバストさのバランスをとる。
提案手法は,大規模かつ多様なマルウェアの特徴空間を表すBODMASとCIC-AndMal2020の2つの大規模マルウェアデータセットを用いて評価される。
実験結果から,CAFE-GB-selected機能で訓練した分類器は,精度,F1スコア,MCC,ROC-AUC,PR-AUCなど,複数の指標において,フル機能のベースラインと同等の性能を実現し,特徴次元を95%以上削減できることがわかった。
ペアド・ウィルコクソン符号ランク試験は、この減少が統計的に有意な性能劣化をもたらしないことを確認した。
追加分析では、機能間の冗長性が低く、SHAPに基づく説明による解釈性の向上が示されている。
実行時とメモリプロファイリングは、下流の分類オーバーヘッドを減らしていることを示している。
全体として、CAFE-GBは、大規模マルウェア検出のための安定的で、解釈可能で、スケーラブルな機能選択戦略を提供する。
関連論文リスト
- Registration is a Powerful Rotation-Invariance Learner for 3D Anomaly Detection [64.0168648353038]
ポイントクラウドデータにおける3次元異常検出は、高い信頼性で構造欠陥を特定することを目的として、産業品質管理に不可欠である。
現在のメモリバンクベースの手法は、しばしば一貫性のない特徴変換と限定的な識別能力に悩まされる。
本稿では、ポイントクラウド登録とメモリベース異常検出の目的を統合した、登録による回転不変の特徴抽出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-19T14:56:38Z) - Source-Free Object Detection with Detection Transformer [59.33653163035064]
Source-Free Object Detection (SFOD) は、ソースデータにアクセスすることなく、ソースドメインから教師なしのターゲットドメインへの知識転送を可能にする。
ほとんどの既存のSFODアプローチは、より高速なR-CNNのような従来のオブジェクト検出(OD)モデルに限られるか、新しいODアーキテクチャ、特に検出変換器(DETR)に適合しない一般的なソリューションとして設計されている。
本稿では,DTRのクエリ中心の機能強化を特化して設計された新しいSFODフレームワークであるFeature Reweighting ANd Contrastive Learning NetworK(FRANCK)を紹介する。
論文 参考訳(メタデータ) (2025-10-13T07:35:04Z) - Evaluating Ensemble and Deep Learning Models for Static Malware Detection with Dimensionality Reduction Using the EMBER Dataset [0.0]
本研究では,EMBERデータセットを用いた静的マルウェア検出における機械学習アルゴリズムの有効性について検討した。
LightGBM, XGBoost, CatBoost, Random Forest, Extra Trees, HistGradientBoosting, k-Nearest Neighbors (KNN), TabNetの8つの分類モデルを評価した。
モデルは精度、精度、リコール、F1スコア、AUCに基づいて評価され、予測性能とロバスト性の両方を調べる。
論文 参考訳(メタデータ) (2025-07-22T18:45:10Z) - A Hybrid Framework for Statistical Feature Selection and Image-Based Noise-Defect Detection [55.2480439325792]
本稿では,統計的特徴選択と分類技術を統合し,欠陥検出精度を向上させるハイブリッドフレームワークを提案する。
工業画像から抽出した55個の特徴を統計的手法を用いて解析した。
これらの手法をフレキシブルな機械学習アプリケーションに統合することにより、検出精度を改善し、偽陽性や誤分類を減らす。
論文 参考訳(メタデータ) (2024-12-11T22:12:21Z) - Ransomware detection using stacked autoencoder for feature selection [0.0]
この研究は、オートエンコーダの学習したウェイトとアクティベーションを慎重に分析し、ランサムウェアファミリーと他のマルウェアを区別するための重要な特徴を特定します。
提案手法はランサムウェア分類において, Extreme Gradient Boosting (XGBoost) アルゴリズムを上回り, 99%の精度を達成している。
論文 参考訳(メタデータ) (2024-02-17T17:31:48Z) - On the Efficacy of Generalization Error Prediction Scoring Functions [33.24980750651318]
一般化誤差予測器(GEP)は,サンプルレベルのスコアからデータセットレベルの誤差推定を導出することにより,未知分布のモデル性能を予測することを目的としている。
機構選択に依存しない一般的なスコアリング関数(自信,局所多様体の滑らかさ,モデル適合性)の有効性を厳密に研究する。
論文 参考訳(メタデータ) (2023-03-23T18:08:44Z) - Towards Reliable Medical Image Segmentation by Modeling Evidential Calibrated Uncertainty [57.023423137202485]
医用画像のセグメンテーションの信頼性に関する懸念が臨床医の間で続いている。
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。
主観的論理理論を活用することで、医用画像分割の確率と不確実性を明示的にモデル化する。
論文 参考訳(メタデータ) (2023-01-01T05:02:46Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。