論文の概要: MH-1M: A 1.34 Million-Sample Comprehensive Multi-Feature Android Malware Dataset for Machine Learning, Deep Learning, Large Language Models, and Threat Intelligence Research
- arxiv url: http://arxiv.org/abs/2511.00342v1
- Date: Sat, 01 Nov 2025 00:54:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.727427
- Title: MH-1M: A 1.34 Million-Sample Comprehensive Multi-Feature Android Malware Dataset for Machine Learning, Deep Learning, Large Language Models, and Threat Intelligence Research
- Title(参考訳): MH-1M: マシンラーニング、ディープラーニング、大規模言語モデル、脅威インテリジェンス研究のための、143万サンプルの総合的多機能Androidマルウェアデータセット
- Authors: Hendrio Braganca, Diego Kreutz, Vanderson Rocha, Joner Assolin, and Eduardo Feitosa,
- Abstract要約: MH-1Mは、高度なAndroidマルウェア研究のための最も包括的で最新のデータセットの1つである。
データセットは1,340,515のアプリケーションで構成され、幅広い機能と広範なメタデータを含んでいる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present MH-1M, one of the most comprehensive and up-to-date datasets for advanced Android malware research. The dataset comprises 1,340,515 applications, encompassing a wide range of features and extensive metadata. To ensure accurate malware classification, we employ the VirusTotal API, integrating multiple detection engines for comprehensive and reliable assessment. Our GitHub, Figshare, and Harvard Dataverse repositories provide open access to the processed dataset and its extensive supplementary metadata, totaling more than 400 GB of data and including the outputs of the feature extraction pipeline as well as the corresponding VirusTotal reports. Our findings underscore the MH-1M dataset's invaluable role in understanding the evolving landscape of malware.
- Abstract(参考訳): We present MH-1M, one of the most comprehensive and up-to-date datasets for advanced Android malware research。
データセットは1,340,515のアプリケーションで構成され、幅広い機能と広範なメタデータを含んでいる。
マルウェアの正確な分類を保証するため、VrusTotal APIを使用し、複数の検出エンジンを統合し、総合的かつ信頼性の高い評価を行う。
当社のGitHub、Figshare、Harvard Dataverseリポジトリは、処理されたデータセットとその広範な補完メタデータへのオープンアクセスを提供し、合計400GB以上のデータを収集し、機能抽出パイプラインの出力と対応するVrusTotalレポートを含む。
以上の結果から,MH-1Mデータセットがマルウェアの進化する状況を理解する上で重要な役割を担っていることが明らかとなった。
関連論文リスト
- EMBER2024 -- A Benchmark Dataset for Holistic Evaluation of Malware Classifiers [34.77788258445852]
本稿では,マルウェア分類器の全体的評価を可能にする新しいデータセットEMBER2024を提案する。
本データセットは,7つのマルウェア分類タスクにおける機械学習モデルのトレーニングと評価を支援する。
EMBER2024は、最初はアンチウイルス製品によって検出されなかった悪意のあるファイルのコレクションを含む最初のものである。
論文 参考訳(メタデータ) (2025-06-05T14:20:36Z) - PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Documents [93.55219461948529]
PIN(Paired and INterleaved multimodal document)は、視覚とテキストの知識のより深い統合を促進するために設計された、新しいデータフォーマットである。
PIN-200M(2億ドキュメント)とPIN-14M(14百万ドキュメント)の2つの大規模オープンソースデータセットを構築しリリースする。
論文 参考訳(メタデータ) (2024-06-20T01:43:08Z) - LUMA: A Benchmark Dataset for Learning from Uncertain and Multimodal Data [3.66486428341988]
本稿では,50クラスの音声,画像,テキストデータを含む,ユニークなマルチモーダルデータセットLUMAを提案する。
有名なCIFAR 10/100データセットを拡張し、3つのオーディオコーパスから抽出された音声サンプルと、Gemma-7B Large Language Model (LLM) を用いて生成されたテキストデータを提供する。
LUMAデータセットは、さまざまなタイプの制御されたインジェクションと不確実性の度合いによって、特定の実験やベンチマークイニシアチブの達成と調整を可能にする。
論文 参考訳(メタデータ) (2024-06-14T09:22:07Z) - M3LEO: A Multi-Modal, Multi-Label Earth Observation Dataset Integrating Interferometric SAR and Multispectral Data [1.4053129774629076]
M3LEOはマルチモーダルでマルチラベルの地球観測データセットである。
6つの地理的領域から約17M 4x4 kmのデータチップにまたがる。
論文 参考訳(メタデータ) (2024-06-06T16:30:41Z) - MASSTAR: A Multi-Modal and Large-Scale Scene Dataset with a Versatile Toolchain for Surface Prediction and Completion [25.44529512862336]
MASSTARはマルチモーダルなlArgeスケールのシーンデータセットであり、サーフAce predictionと完了のためのVerSatile Toolchainを備えている。
環境から生の3Dデータを処理するための汎用的で効率的なツールチェーンを開発した。
実世界の部分的なデータを含む1000以上のシーンレベルのモデルからなるサンプルデータセットを生成する。
論文 参考訳(メタデータ) (2024-03-18T11:35:18Z) - LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset [75.9621305227523]
LMSYS-Chat-1M(LMSYS-Chat-1M)について紹介する。
このデータセットは、VicunaのデモとArenaのWebサイトで、210KのIPアドレスから収集されています。
GPT-4と同様の動作を行うコンテンツモデレーションモデルの開発、安全性ベンチマークの構築、Vicunaと同様の動作を行う命令追従モデルのトレーニング、挑戦的なベンチマーク問題の作成、という4つのユースケースを通じて、その汎用性を実証する。
論文 参考訳(メタデータ) (2023-09-21T12:13:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。