論文の概要: LLM-FS: Zero-Shot Feature Selection for Effective and Interpretable Malware Detection
- arxiv url: http://arxiv.org/abs/2602.09634v1
- Date: Tue, 10 Feb 2026 10:29:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.496042
- Title: LLM-FS: Zero-Shot Feature Selection for Effective and Interpretable Malware Detection
- Title(参考訳): LLM-FS: 効果的かつ解釈可能なマルウェア検出のためのゼロショット特徴選択
- Authors: Naveen Gill, Ajvad Haneef K, Madhu Kumar S D,
- Abstract要約: 従来の手法の代替として,機能名とタスク記述のみを用いて,ゼロショット設定で機能選択を導出できるかどうかを検討する。
その結果,LLM誘導ゼロショット特徴選択は従来のFS法と競合する性能を達成し,解釈可能性,安定性,ラベル付きデータへの依存性の低減といった利点を生かした。
これらの知見は,ゼロショットLPMベースのFSを,セキュリティクリティカルなアプリケーションにおける知識誘導機能選択の方法として,効果的かつ解釈可能なマルウェア検出のための将来的な代替戦略として位置付けている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature selection (FS) remains essential for building accurate and interpretable detection models, particularly in high-dimensional malware datasets. Conventional FS methods such as Extra Trees, Variance Threshold, Tree-based models, Chi-Squared tests, ANOVA, Random Selection, and Sequential Attention rely primarily on statistical heuristics or model-driven importance scores, often overlooking the semantic context of features. Motivated by recent progress in LLM-driven FS, we investigate whether large language models (LLMs) can guide feature selection in a zero-shot setting, using only feature names and task descriptions, as a viable alternative to traditional approaches. We evaluate multiple LLMs (GPT-5.0, GPT-4.0, Gemini-2.5 etc.) on the EMBOD dataset (a fusion of EMBER and BODMAS benchmark datasets), comparing them against established FS methods across several classifiers, including Random Forest, Extra Trees, MLP, and KNN. Performance is assessed using accuracy, precision, recall, F1, AUC, MCC, and runtime. Our results demonstrate that LLM-guided zero-shot feature selection achieves competitive performance with traditional FS methods while offering additional advantages in interpretability, stability, and reduced dependence on labeled data. These findings position zero-shot LLM-based FS as a promising alternative strategy for effective and interpretable malware detection, paving the way for knowledge-guided feature selection in security-critical applications
- Abstract(参考訳): 特徴選択(FS)は、特に高次元のマルウェアデータセットにおいて、正確で解釈可能な検出モデルを構築するために不可欠である。
Extra Trees, Variance Threshold, Tree-based model, Chi-Squared test, ANOVA, Random Selection, Sequential Attentionといった従来のFSメソッドは、主に統計ヒューリスティックスやモデル駆動の重要スコアに依存しており、しばしば特徴の意味的文脈を見下ろしている。
LLM駆動FSの最近の進歩に触発されて,従来のアプローチの代替として機能名とタスク記述のみを用いて,大型言語モデル(LLM)がゼロショット設定で機能選択をガイドできるかどうかを検討する。
EMBOD データセット (EMBER と BODMAS ベンチマークデータセットの融合) 上で複数の LLM (GPT-5.0, GPT-4.0, Gemini-2.5 など) を評価し, ランダムフォレスト, エクストラツリー, MLP, KNN を含むいくつかの分類群で確立された FS 手法と比較した。
性能は精度、精度、リコール、F1、AUC、MCC、ランタイムを用いて評価される。
LLM誘導ゼロショット特徴選択は,従来のFS法と競合する性能を達成し,解釈可能性,安定性,ラベル付きデータへの依存度を低減できる。
これらの知見は、ゼロショットLPMベースのFSを、セキュリティクリティカルなアプリケーションにおける知識誘導機能選択の方法として、効果的かつ解釈可能なマルウェア検出のための有望な代替戦略として位置づけている。
関連論文リスト
- Towards Understanding Valuable Preference Data for Large Language Model Alignment [85.38864561060088]
大規模言語モデル(LLM)のアライメントは通常、人間の好みの比較から学習することで達成される。
新たに提案したTruncated Influence Function (TIF) を用いた検証データに対する個人の影響によるデータ品質の評価を行う。
この目的のために、我々はそれらを組み合わせ、様々なエラーソースをオフセットし、単純だが効果的なデータ選択ルールをもたらす。
論文 参考訳(メタデータ) (2025-10-15T06:57:55Z) - LLM4FS: Leveraging Large Language Models for Feature Selection [4.039099719779964]
大規模言語モデル(LLM)の最近の進歩は、意思決定に新たな機会をもたらした。
従来のデータ駆動方式とLCMを統合したLSM4FSというハイブリッド戦略を提案する。
論文 参考訳(メタデータ) (2025-03-31T14:40:31Z) - Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Exploring Large Language Models for Feature Selection: A Data-centric Perspective [17.99621520553622]
大規模言語モデル(LLM)は様々なドメインに影響を与え、例外的な少数ショットとゼロショットの学習機能を活用している。
我々は,データ中心の観点からLLMに基づく特徴選択手法を探求し,理解することを目指している。
本研究は,テキストベースの特徴選択手法の有効性とロバスト性を強調し,実世界の医療応用を用いてその可能性を示す。
論文 参考訳(メタデータ) (2024-08-21T22:35:19Z) - LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - SLM: End-to-end Feature Selection via Sparse Learnable Masks [12.081877372552606]
本稿では,特徴量とサンプル数の両方に関して,エンドツーエンドの特徴選択のための標準的アプローチを提案する。
SLMの中心には、シンプルだが効果的に学習可能なスパースマスクがあり、どの機能を選択するかを学ぶ。
我々は、SLMが選択した特徴数を正確に制御できるスケーリングメカニズムを導出する。
論文 参考訳(メタデータ) (2023-04-06T16:25:43Z) - Filter Methods for Feature Selection in Supervised Machine Learning
Applications -- Review and Benchmark [0.0]
本稿では,特徴選択ベンチマークに関する文献を合成し,広く使用されているR環境における58の手法の性能評価を行う。
MLモデルでは難しい4つの典型的なデータセットシナリオについて検討する。
論文 参考訳(メタデータ) (2021-11-23T20:20:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。