論文の概要: LLM-FS: Zero-Shot Feature Selection for Effective and Interpretable Malware Detection
- arxiv url: http://arxiv.org/abs/2602.09634v1
- Date: Tue, 10 Feb 2026 10:29:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.496042
- Title: LLM-FS: Zero-Shot Feature Selection for Effective and Interpretable Malware Detection
- Title(参考訳): LLM-FS: 効果的かつ解釈可能なマルウェア検出のためのゼロショット特徴選択
- Authors: Naveen Gill, Ajvad Haneef K, Madhu Kumar S D,
- Abstract要約: 従来の手法の代替として,機能名とタスク記述のみを用いて,ゼロショット設定で機能選択を導出できるかどうかを検討する。
その結果,LLM誘導ゼロショット特徴選択は従来のFS法と競合する性能を達成し,解釈可能性,安定性,ラベル付きデータへの依存性の低減といった利点を生かした。
これらの知見は,ゼロショットLPMベースのFSを,セキュリティクリティカルなアプリケーションにおける知識誘導機能選択の方法として,効果的かつ解釈可能なマルウェア検出のための将来的な代替戦略として位置付けている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature selection (FS) remains essential for building accurate and interpretable detection models, particularly in high-dimensional malware datasets. Conventional FS methods such as Extra Trees, Variance Threshold, Tree-based models, Chi-Squared tests, ANOVA, Random Selection, and Sequential Attention rely primarily on statistical heuristics or model-driven importance scores, often overlooking the semantic context of features. Motivated by recent progress in LLM-driven FS, we investigate whether large language models (LLMs) can guide feature selection in a zero-shot setting, using only feature names and task descriptions, as a viable alternative to traditional approaches. We evaluate multiple LLMs (GPT-5.0, GPT-4.0, Gemini-2.5 etc.) on the EMBOD dataset (a fusion of EMBER and BODMAS benchmark datasets), comparing them against established FS methods across several classifiers, including Random Forest, Extra Trees, MLP, and KNN. Performance is assessed using accuracy, precision, recall, F1, AUC, MCC, and runtime. Our results demonstrate that LLM-guided zero-shot feature selection achieves competitive performance with traditional FS methods while offering additional advantages in interpretability, stability, and reduced dependence on labeled data. These findings position zero-shot LLM-based FS as a promising alternative strategy for effective and interpretable malware detection, paving the way for knowledge-guided feature selection in security-critical applications
- Abstract(参考訳): 特徴選択(FS)は、特に高次元のマルウェアデータセットにおいて、正確で解釈可能な検出モデルを構築するために不可欠である。
Extra Trees, Variance Threshold, Tree-based model, Chi-Squared test, ANOVA, Random Selection, Sequential Attentionといった従来のFSメソッドは、主に統計ヒューリスティックスやモデル駆動の重要スコアに依存しており、しばしば特徴の意味的文脈を見下ろしている。
LLM駆動FSの最近の進歩に触発されて,従来のアプローチの代替として機能名とタスク記述のみを用いて,大型言語モデル(LLM)がゼロショット設定で機能選択をガイドできるかどうかを検討する。
EMBOD データセット (EMBER と BODMAS ベンチマークデータセットの融合) 上で複数の LLM (GPT-5.0, GPT-4.0, Gemini-2.5 など) を評価し, ランダムフォレスト, エクストラツリー, MLP, KNN を含むいくつかの分類群で確立された FS 手法と比較した。
性能は精度、精度、リコール、F1、AUC、MCC、ランタイムを用いて評価される。
LLM誘導ゼロショット特徴選択は,従来のFS法と競合する性能を達成し,解釈可能性,安定性,ラベル付きデータへの依存度を低減できる。
これらの知見は、ゼロショットLPMベースのFSを、セキュリティクリティカルなアプリケーションにおける知識誘導機能選択の方法として、効果的かつ解釈可能なマルウェア検出のための有望な代替戦略として位置づけている。
関連論文リスト
- LLM4FS: Leveraging Large Language Models for Feature Selection [4.039099719779964]
大規模言語モデル(LLM)の最近の進歩は、意思決定に新たな機会をもたらした。
従来のデータ駆動方式とLCMを統合したLSM4FSというハイブリッド戦略を提案する。
論文 参考訳(メタデータ) (2025-03-31T14:40:31Z) - Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - SLM: End-to-end Feature Selection via Sparse Learnable Masks [12.081877372552606]
本稿では,特徴量とサンプル数の両方に関して,エンドツーエンドの特徴選択のための標準的アプローチを提案する。
SLMの中心には、シンプルだが効果的に学習可能なスパースマスクがあり、どの機能を選択するかを学ぶ。
我々は、SLMが選択した特徴数を正確に制御できるスケーリングメカニズムを導出する。
論文 参考訳(メタデータ) (2023-04-06T16:25:43Z) - Filter Methods for Feature Selection in Supervised Machine Learning
Applications -- Review and Benchmark [0.0]
本稿では,特徴選択ベンチマークに関する文献を合成し,広く使用されているR環境における58の手法の性能評価を行う。
MLモデルでは難しい4つの典型的なデータセットシナリオについて検討する。
論文 参考訳(メタデータ) (2021-11-23T20:20:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。