論文の概要: Semantic-Aware Contrastive Fine-Tuning: Boosting Multimodal Malware Classification with Discriminative Embeddings
- arxiv url: http://arxiv.org/abs/2504.21028v1
- Date: Fri, 25 Apr 2025 02:41:45 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-05-02 15:42:46.580983
- Title: Semantic-Aware Contrastive Fine-Tuning: Boosting Multimodal Malware Classification with Discriminative Embeddings
- Title(参考訳): Semantic-Aware Contrastive Fine-Tuning:差別的埋め込みを用いたマルチモーダルマルウェア分類の強化
- Authors: Ivan Montoya Sanchez, Shaswata Mitra, Aritran Piplai, Sudip Mittal,
- Abstract要約: 大規模言語モデル(LLM)は、家族分類を支援するマルウェア記述を生成する可能性を提供する。
硬質負試料のターゲット選択によりLCM埋め込みを改良するコントラスト微調整法(CFT)を提案する。
提案手法は, 高い相似性陰性度を組み合わせ, 識別力と中層性陰性度を高め, 埋め込み多様性を高める。
- 参考スコア(独自算出の注目度): 2.1874189959020427
- License:
- Abstract: The rapid evolution of malware variants requires robust classification methods to enhance cybersecurity. While Large Language Models (LLMs) offer potential for generating malware descriptions to aid family classification, their utility is limited by semantic embedding overlaps and misalignment with binary behavioral features. We propose a contrastive fine-tuning (CFT) method that refines LLM embeddings via targeted selection of hard negative samples based on cosine similarity, enabling LLMs to distinguish between closely related malware families. Our approach combines high-similarity negatives to enhance discriminative power and mid-tier negatives to increase embedding diversity, optimizing both precision and generalization. Evaluated on the CIC-AndMal-2020 and BODMAS datasets, our refined embeddings are integrated into a multimodal classifier within a Model-Agnostic Meta-Learning (MAML) framework on a few-shot setting. Experiments demonstrate significant improvements: our method achieves 63.15% classification accuracy with as few as 20 samples on CIC-AndMal-2020, outperforming baselines by 11--21 percentage points and surpassing prior negative sampling strategies. Ablation studies confirm the superiority of similarity-based selection over random sampling, with gains of 10-23%. Additionally, fine-tuned LLMs generate attribute-aware descriptions that generalize to unseen variants, bridging textual and binary feature gaps. This work advances malware classification by enabling nuanced semantic distinctions and provides a scalable framework for adapting LLMs to cybersecurity challenges.
- Abstract(参考訳): マルウェアの急激な進化には、サイバーセキュリティを強化するための堅牢な分類方法が必要である。
LLM(Large Language Models)は、ファミリー分類を支援するためにマルウェア記述を生成する可能性を提供しているが、それらのユーティリティはセマンティック埋め込みの重複とバイナリの振舞いの特徴とのミスアライメントによって制限される。
本研究では,コサイン類似性に基づくハードネガティブサンプルのターゲット選択により,LDMの埋め込みを改良するコントラスト微調整(CFT)手法を提案する。
提案手法は,高い相似性陰性度を組み合わせ,識別力と中層性陰性度を高め,埋め込み多様性を高め,精度と一般化の両面を最適化する。
CIC-AndMal-2020 および BODMAS データセットを用いて評価し,改良された埋め込みをモデル非依存メタラーニング(MAML)フレームワーク内のマルチモーダル分類器に統合する。
CIC-AndMal-2020 では,CIC-AndMal-2020 では 63.15% の分類精度を達成し,11-21 ポイントのベースラインを上回り,事前の負のサンプリング戦略を上回った。
アブレーション研究は、ランダムサンプリングよりも類似性に基づく選択の方が10-23%の利得を持つことを示す。
さらに、微調整のLLMは属性認識記述を生成し、見つからない変種に一般化し、テキストとバイナリの特徴ギャップを埋める。
この研究は、ニュアンスドセマンティックな区別を可能にすることでマルウェアの分類を進め、LLMをサイバーセキュリティの課題に適応するためのスケーラブルなフレームワークを提供する。
関連論文リスト
- SHA256 at SemEval-2025 Task 4: Selective Amnesia -- Constrained Unlearning for Large Language Models via Knowledge Isolation [12.838593066237452]
大規模言語モデル(LLM)は、トレーニング中に頻繁にセンシティブな情報を記憶し、公開可能なモデルをデプロイする際にリスクを生じさせる。
本稿では, 因果媒介分析と層固有の最適化を組み合わせた, 対象未学習におけるSemEval-2025タスク4の解を提案する。
論文 参考訳(メタデータ) (2025-04-17T15:05:40Z) - Estimating Commonsense Plausibility through Semantic Shifts [66.06254418551737]
セマンティックシフトを測定することでコモンセンスの妥当性を定量化する新しい識別フレームワークであるComPaSSを提案する。
2種類の細粒度コモンセンス可視性評価タスクの評価は,ComPaSSが一貫してベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-19T06:31:06Z) - Multi-Attribute Steering of Language Models via Targeted Intervention [56.93583799109029]
推論時間介入(ITI)は,大規模言語モデル(LLM)の振る舞いを特定の方向に操るための有望な手法として登場した。
マルチ属性・ターゲットステアリング(MAT-Steer)は,複数の属性をまたいだトークンレベルの選択的介入を目的とした,新しいステアリングフレームワークである。
論文 参考訳(メタデータ) (2025-02-18T02:27:23Z) - Targeting Alignment: Extracting Safety Classifiers of Aligned LLMs [4.492376241514766]
大規模言語モデル(LLM)のアライメントは、安全性などのガイドラインを強制するために使用される。
しかし、アライメントは、入力を変更して安全でない出力を誘導するjailbreak攻撃に直面して失敗する。
LLMアライメントのロバスト性を評価する手法を提案し,評価する。
論文 参考訳(メタデータ) (2025-01-27T22:13:05Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - Constructing Domain-Specific Evaluation Sets for LLM-as-a-judge [15.980606104936365]
大規模言語モデル(LLM)は機械学習のランドスケープに革命をもたらしたが、現在のベンチマークは現実世界のアプリケーションでこれらのモデルの多様な振る舞いを捉えるのに不足していることが多い。
Alpaca-Eval 2.0 LC referenceubois2024length controlledalpacaevalsimpleway や Arena-Hard v0.1 citeli2024crowdsourced のような既存のフレームワークは、汎用的なクエリと法、医学、多言語コンテキストといったドメイン間の多様性の欠如によって制限されている。
LLM-asに適したドメイン固有の評価セットをキュレートする新しいデータパイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-16T15:41:43Z) - Task-oriented Embedding Counts: Heuristic Clustering-driven Feature Fine-tuning for Whole Slide Image Classification [1.292108130501585]
本稿では,クラスタリング駆動型機能微調整法(HC-FT)を提案する。
提案手法はCAMELYON16とBRACSの両方で評価され,それぞれ97.13%,85.85%のAUCが得られた。
論文 参考訳(メタデータ) (2024-06-02T08:53:45Z) - Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。
好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文 参考訳(メタデータ) (2024-04-22T17:20:18Z) - Rethinking Clustering-Based Pseudo-Labeling for Unsupervised
Meta-Learning [146.11600461034746]
教師なしメタラーニングのメソッドであるCACTUsは、擬似ラベル付きクラスタリングベースのアプローチである。
このアプローチはモデルに依存しないため、教師付きアルゴリズムと組み合わせてラベルのないデータから学習することができる。
このことの核となる理由は、埋め込み空間においてクラスタリングに優しい性質が欠如していることである。
論文 参考訳(メタデータ) (2022-09-27T19:04:36Z) - MCDAL: Maximum Classifier Discrepancy for Active Learning [74.73133545019877]
近年の最先端のアクティブラーニング手法は, 主にGAN(Generative Adversarial Networks)をサンプル取得に活用している。
本稿では,MCDAL(Maximum Discrepancy for Active Learning)と呼ぶ新しいアクティブラーニングフレームワークを提案する。
特に,両者の差分を最大化することにより,より厳密な決定境界を学習する2つの補助的分類層を利用する。
論文 参考訳(メタデータ) (2021-07-23T06:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。