論文の概要: Rethinking and Exploring String-Based Malware Family Classification in the Era of LLMs and RAG
- arxiv url: http://arxiv.org/abs/2507.04055v1
- Date: Sat, 05 Jul 2025 14:36:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.995603
- Title: Rethinking and Exploring String-Based Malware Family Classification in the Era of LLMs and RAG
- Title(参考訳): LLMとRAGの時代における文字列ベースのマルウェアの分類の再考と探索
- Authors: Yufan Chen, Daoyuan Wu, Juantao Zhong, Zicheng Zhang, Debin Gao, Shuai Wang, Yingjiu Li, Ning Liu,
- Abstract要約: Family-Specific String (FSS) 機能は、Malware Family Classification (MFC) を促進するために、Retrieval-Augmented Generation (RAG) と同様の方法で利用できる。
本研究では,67のマルウェアファミリーから4,347件のサンプルを収集し,2500万以上の文字列を抽出・解析し,4つの主要モジュールにおける異なる設計選択の影響を評価するための詳細なアブレーション研究を行う。
- 参考スコア(独自算出の注目度): 17.816068374958043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Malware Family Classification (MFC) aims to identify the fine-grained family (e.g., GuLoader or BitRAT) to which a potential malware sample belongs, in contrast to malware detection or sample classification that predicts only an Yes/No. Accurate family identification can greatly facilitate automated sample labeling and understanding on crowdsourced malware analysis platforms such as VirusTotal and MalwareBazaar, which generate vast amounts of data daily. In this paper, we explore and assess the feasibility of using traditional binary string features for MFC in the new era of large language models (LLMs) and Retrieval-Augmented Generation (RAG). Specifically, we investigate how Family-Specific String (FSS) features could be utilized in a manner similar to RAG to facilitate MFC. To this end, we develop a curated evaluation framework covering 4,347 samples from 67 malware families, extract and analyze over 25 million strings, and conduct detailed ablation studies to assess the impact of different design choices in four major modules.
- Abstract(参考訳): Malware Family Classification(MFC)は、マルウェア検出やサンプル分類とは対照的に、潜在的なマルウェアサンプルが属するきめ細かいファミリー(GuLoaderやBitRATなど)を特定することを目的としている。
正確な家族識別は、毎日大量のデータを生成するVrusTotalやMalwareBazaarといったクラウドソースのマルウェア分析プラットフォーム上で、自動的なサンプルラベリングと理解を大幅に促進することができる。
本稿では,大規模言語モデル (LLM) とレトリーバル拡張生成 (RAG) の新たな時代において,MFC における従来のバイナリ文字列機能の適用可能性について検討・評価する。
具体的には,Family-Specific String (FSS) 機能をRAGに類似した方法で利用して MFC を促進する方法について検討する。
そこで本研究では,67のマルウェアファミリーから4,347件のサンプルを収集し,2500万以上の文字列を抽出・解析し,異なる設計選択の影響を4つの主要モジュールで評価するための詳細なアブレーション研究を行う。
関連論文リスト
- MLRan: A Behavioural Dataset for Ransomware Analysis and Detection [0.7706236363202722]
MLRanは、64のランサムウェアファミリーに4,800以上のサンプルと、バランスの取れたグッドウェアサンプルからなる行動型ランサムウェアデータセットである。
サンプルは2006年から2024年にかけて、ロック、暗号、ランサムウェア・アズ・ア・サービス、モダンな4種類のランサムウェアを含む。
MLRanを用いた機械学習(ML)モデルのランサムウェア検出性能を評価した。
論文 参考訳(メタデータ) (2025-05-24T09:22:53Z) - Small Effect Sizes in Malware Detection? Make Harder Train/Test Splits! [51.668411293817464]
業界関係者は、モデルが数億台のマシンにデプロイされているため、マルウェア検出精度の小さな改善に気を配っている。
学術研究はしばしば1万のサンプルの順序で公開データセットに制限される。
利用可能なサンプルのプールから難易度ベンチマークを生成するためのアプローチを考案する。
論文 参考訳(メタデータ) (2023-12-25T21:25:55Z) - Semi-supervised Classification of Malware Families Under Extreme Class Imbalance via Hierarchical Non-Negative Matrix Factorization with Automatic Model Selection [34.7994627734601]
マルウェアファミリーラベリングプロセスの初期段階で使用できる新しい階層型半教師付きアルゴリズムを提案する。
HNMFkでは、マルウェアデータの階層構造と半教師付き設定を併用し、極度のクラス不均衡の条件下でマルウェアファミリーを分類することができる。
我々のソリューションは、新しいマルウェアファミリーの同定において有望な結果をもたらす、断固とした予測または拒絶オプションを実行することができる。
論文 参考訳(メタデータ) (2023-09-12T23:45:59Z) - Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。
我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。
RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文 参考訳(メタデータ) (2023-09-04T08:28:44Z) - Classification and Online Clustering of Zero-Day Malware [4.409836695738518]
本稿では,既存の家族に割り当てるために,あるいは新たな家族のサンプルをクラスタリングするために,入ってくる悪意のあるサンプルをオンラインに処理することに焦点を当てる。
マルチ層パーセプトロンの分類スコアに基づいて,どのサンプルを分類し,どのサンプルを新しいマルウェア群に分類するかを決定した。
論文 参考訳(メタデータ) (2023-05-01T00:00:07Z) - Benchmarking Machine Learning Robustness in Covid-19 Genome Sequence
Classification [109.81283748940696]
我々は、IlluminaやPacBioといった一般的なシークエンシングプラットフォームのエラープロファイルを模倣するために、SARS-CoV-2ゲノム配列を摂動する方法をいくつか紹介する。
シミュレーションに基づくいくつかのアプローチは、入力シーケンスに対する特定の敵攻撃に対する特定の埋め込み手法に対して、他の手法よりも堅牢(かつ正確)であることを示す。
論文 参考訳(メタデータ) (2022-07-18T19:16:56Z) - Towards a Fair Comparison and Realistic Design and Evaluation Framework
of Android Malware Detectors [63.75363908696257]
一般的な評価フレームワークを用いて,Androidのマルウェア検出に関する10の研究成果を分析した。
データセットの作成やデザイナの設計に考慮しない場合、トレーニングされたMLモデルに大きく影響する5つの要因を特定します。
その結果,MLに基づく検出器は楽観的に評価され,良好な結果が得られた。
論文 参考訳(メタデータ) (2022-05-25T08:28:08Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - MOTIF: A Large Malware Reference Dataset with Ground Truth Family Labels [21.050311121388813]
我々は、Malware Open-source Threat Intelligence Family (MOTIF)データセットを作成しました。
MOTIFには454家族の3,095のマルウェアサンプルが含まれており、最大かつ最も多様な公開マルウェアデータセットとなっている。
我々は、同じマルウェアファミリーを記述するために使われる異なる名前のエイリアスを提供し、既存のツールの精度を初めてベンチマークすることができる。
論文 参考訳(メタデータ) (2021-11-29T23:59:50Z) - DAEMON: Dataset-Agnostic Explainable Malware Classification Using
Multi-Stage Feature Mining [3.04585143845864]
マルウェア分類は、新しい悪意のある亜種が属する家族を決定するタスクである。
DAEMONは,データセットに依存しない新しいマルウェア分類ツールである。
論文 参考訳(メタデータ) (2020-08-04T21:57:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。