論文の概要: Automated Malware Family Classification using Weighted Hierarchical Ensembles of Large Language Models
- arxiv url: http://arxiv.org/abs/2604.02490v1
- Date: Thu, 02 Apr 2026 19:47:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.19237
- Title: Automated Malware Family Classification using Weighted Hierarchical Ensembles of Large Language Models
- Title(参考訳): 大規模言語モデルの重み付き階層的アンサンブルを用いたマルウェア家族の自動分類
- Authors: Samita Bai, Hamed Jelodar, Tochukwu Emmanuel Nwankwo, Parisa Hamedi, Mohammad Meymani, Roozbeh Razavi-Far, Ali A. Ghorbani,
- Abstract要約: 本稿では、事前訓練された大規模言語モデル(LLM)の重み付き階層的アンサンブルに基づくゼロラベルマルウェアファミリー分類フレームワークを提案する。
提案手法は,特徴レベルの学習やモデル再訓練に頼るのではなく,複数のLSMから決定レベルの予測を補完的推論強度で集約する。
モデル出力は経験的に派生したマクロF1スコアを用いて重み付けされ、階層的に整理される。
- 参考スコア(独自算出の注目度): 4.240884806677703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Malware family classification remains a challenging task in automated malware analysis, particularly in real-world settings characterized by obfuscation, packing, and rapidly evolving threats. Existing machine learning and deep learning approaches typically depend on labeled datasets, handcrafted features, supervised training, or dynamic analysis, which limits their scalability and effectiveness in open-world scenarios. This paper presents a zero-label malware family classification framework based on a weighted hierarchical ensemble of pretrained large language models (LLMs). Rather than relying on feature-level learning or model retraining, the proposed approach aggregates decision-level predictions from multiple LLMs with complementary reasoning strengths. Model outputs are weighted using empirically derived macro-F1 scores and organized hierarchically, first resolving coarse-grained malicious behavior before assigning fine-grained malware families. This structure enhances robustness, reduces individual model instability, and aligns with analyst-style reasoning.
- Abstract(参考訳): マルウェアファミリー分類は、特に難読化、パッケージング、急速に進化する脅威を特徴とする現実世界の設定において、自動マルウェア分析において依然として困難な課題である。
既存の機械学習とディープラーニングのアプローチは、通常、ラベル付きデータセット、手作り機能、教師付きトレーニング、動的分析に依存する。
本稿では,事前訓練された大規模言語モデル(LLM)の重み付き階層的アンサンブルに基づくゼロラベルマルウェアファミリー分類フレームワークを提案する。
提案手法は,特徴レベルの学習やモデル再訓練に頼るのではなく,複数のLSMから決定レベルの予測を補完的推論強度で集約する。
モデル出力は経験的に派生したマクロF1スコアを用いて重み付けされ、階層的に整理される。
この構造は堅牢性を高め、個々のモデルの不安定性を低減し、アナリストスタイルの推論と整合する。
関連論文リスト
- AutoMIA: Improved Baselines for Membership Inference Attack via Agentic Self-Exploration [49.050688065974605]
メンバーシップ推論攻撃(MIAs)は、機械学習モデルにおけるトレーニングデータの漏洩を評価するための基本的な監査ツールである。
本稿では,自己探索と戦略進化の自動化プロセスとして,メンバーシップ推論を再構築するエージェントフレームワークであるAutoMIAを提案する。
論文 参考訳(メタデータ) (2026-04-01T15:17:45Z) - Context-Aware Hierarchical Learning: A Two-Step Paradigm towards Safer LLMs [38.3239023969819]
大きな言語モデル(LLM)は多様なアプリケーションのための強力なツールとして登場した。
ツール・コンプリート・アタック(TCA)と呼ばれる新しい種類の脆弱性を特定し,提案する。
これらの脆弱性に対処するために、コンテキスト認識階層学習(CAHL)を導入します。
論文 参考訳(メタデータ) (2025-12-03T12:10:21Z) - Modelling higher education dropouts using sparse and interpretable post-clustering logistic regression [0.8437187555622164]
高等教育のドロップアウトは、世界中の第三次教育システムにとって重要な課題である。
本稿では,ロジスティック回帰の特殊形式として,大学ドロップアウト分析の文脈に特化して導入したモデルについて述べる。
論文 参考訳(メタデータ) (2025-05-12T14:05:23Z) - Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [1.1666234644810893]
小さなモデルは安全性においてより大きなモデルよりも優れており、トレーニングとアーキテクチャがスケール以上の意味を持つ可能性があることを示唆している。
低リソース言語を使ったジェイルブレイク攻撃や拒否抑制が効果的であるなど、敵の誘惑に対して完全に堅牢なモデルはない。
論文 参考訳(メタデータ) (2025-04-10T16:00:59Z) - Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。
この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文 参考訳(メタデータ) (2025-03-31T10:16:03Z) - Distributionally robust self-supervised learning for tabular data [4.172010719137041]
エラースライスの存在下での堅牢な表現の学習は、高い濃度特徴とエラーセットの構築の複雑さのために困難である。
従来の堅牢な表現学習手法は、コンピュータビジョンにおける教師付き設定における最悪のグループパフォーマンスの改善に主に焦点をあてている。
提案手法は,Masked Language Modeling (MLM) の損失を学習したエンコーダ・デコーダモデルを用いて,頑健な潜在表現を学習する。
論文 参考訳(メタデータ) (2024-10-11T04:23:56Z) - LoRA-Ensemble: Efficient Uncertainty Modelling for Self-Attention Networks [52.46420522934253]
本稿では,自己注意ネットワークのためのパラメータ効率のよいアンサンブル手法であるLoRA-Ensembleを紹介する。
この方法は、BatchEnsembleのような最先端の暗黙のテクニックを上回るだけでなく、Explicit Ensembleの正確さにマッチするか超える。
論文 参考訳(メタデータ) (2024-05-23T11:10:32Z) - Semi-supervised Classification of Malware Families Under Extreme Class Imbalance via Hierarchical Non-Negative Matrix Factorization with Automatic Model Selection [34.7994627734601]
マルウェアファミリーラベリングプロセスの初期段階で使用できる新しい階層型半教師付きアルゴリズムを提案する。
HNMFkでは、マルウェアデータの階層構造と半教師付き設定を併用し、極度のクラス不均衡の条件下でマルウェアファミリーを分類することができる。
我々のソリューションは、新しいマルウェアファミリーの同定において有望な結果をもたらす、断固とした予測または拒絶オプションを実行することができる。
論文 参考訳(メタデータ) (2023-09-12T23:45:59Z) - Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。
我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-10-26T13:27:26Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - On the Robustness of Random Forest Against Untargeted Data Poisoning: An
Ensemble-Based Approach [42.81632484264218]
機械学習モデルでは、トレーニングセット(中毒)の分画の摂動が、モデルの精度を著しく損なう可能性がある。
本研究の目的は、ランダムな森林を標的のない無作為な毒殺攻撃から保護する、新しいハッシュベースのアンサンブルアプローチを実現することである。
論文 参考訳(メタデータ) (2022-09-28T11:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。