論文の概要: MeAJOR Corpus: A Multi-Source Dataset for Phishing Email Detection
- arxiv url: http://arxiv.org/abs/2507.17978v1
- Date: Wed, 23 Jul 2025 22:57:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:42.647678
- Title: MeAJOR Corpus: A Multi-Source Dataset for Phishing Email Detection
- Title(参考訳): MeAJOR Corpus: フィッシングメール検出のためのマルチソースデータセット
- Authors: Paulo Mendes, Eva Maia, Isabel Praça,
- Abstract要約: 本稿では,新しいマルチソース・フィッシング・メール・データセットであるMeAJORを提案する。
135894のサンプルが統合されており、フィッシングの戦術と正当なメールが多岐にわたる。
複数のカテゴリから幅広い機能を統合することで、データセットは再利用可能な一貫性のあるリソースを提供します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Phishing emails continue to pose a significant threat to cybersecurity by exploiting human vulnerabilities through deceptive content and malicious payloads. While Machine Learning (ML) models are effective at detecting phishing threats, their performance largely relies on the quality and diversity of the training data. This paper presents MeAJOR (Merged email Assets from Joint Open-source Repositories) Corpus, a novel, multi-source phishing email dataset designed to overcome critical limitations in existing resources. It integrates 135894 samples representing a broad number of phishing tactics and legitimate emails, with a wide spectrum of engineered features. We evaluated the dataset's utility for phishing detection research through systematic experiments with four classification models (RF, XGB, MLP, and CNN) across multiple feature configurations. Results highlight the dataset's effectiveness, achieving 98.34% F1 with XGB. By integrating broad features from multiple categories, our dataset provides a reusable and consistent resource, while addressing common challenges like class imbalance, generalisability and reproducibility.
- Abstract(参考訳): フィッシングメールは、偽のコンテンツや悪意のあるペイロードを通じて人間の脆弱性を悪用することで、サイバーセキュリティに重大な脅威を与え続けている。
機械学習(ML)モデルはフィッシングの脅威を検出するのに効果的であるが、その性能はトレーニングデータの品質と多様性に大きく依存している。
本稿では,MeAJOR (Merged email Assets from Joint Open-source Repositories) Corpusを提案する。
135894のサンプルは、広範囲のフィッシング戦術と正当な電子メールを表しており、幅広い工学的特徴を備えている。
我々は,複数の特徴量からなる4つの分類モデル(RF, XGB, MLP, CNN)を用いた系統的な実験により,フィッシング検出研究におけるデータセットの有用性を評価した。
結果はデータセットの有効性を強調し、XGBで98.34%のF1を達成した。
複数のカテゴリから幅広い機能を統合することで、我々のデータセットは再利用可能な一貫したリソースを提供し、クラス不均衡、一般化可能性、再現性といった一般的な課題に対処します。
関連論文リスト
- DATABench: Evaluating Dataset Auditing in Deep Learning from an Adversarial Perspective [59.66984417026933]
内的特徴(IF)と外的特徴(EF)(監査のための技術導入)に依存した既存手法の分類を新たに導入する。
回避攻撃(evasion attack)は、データセットの使用を隠蔽するために設計されたもので、偽造攻撃(forgery attack)は、未使用のデータセットを誤って含んでいることを意図している。
さらに,既存手法の理解と攻撃目標に基づいて,回避のための分離・除去・検出,偽造の逆例に基づく攻撃方法など,系統的な攻撃戦略を提案する。
私たちのベンチマークであるData dataBenchは、17の回避攻撃、5の偽攻撃、9の攻撃で構成されています。
論文 参考訳(メタデータ) (2025-07-08T03:07:15Z) - Multilingual Email Phishing Attacks Detection using OSINT and Machine Learning [0.0]
本稿では、オープンソースのインテリジェンス(OSINT)ツールと機械学習(ML)モデルを統合して、多言語データセット間のフィッシング検出を強化する。
NmapとTheHarvesterを用いて、ドメイン名、IPアドレス、オープンポートを含む17の機能を抽出し、検出精度を向上した。
論文 参考訳(メタデータ) (2025-01-15T11:05:25Z) - Can Features for Phishing URL Detection Be Trusted Across Diverse Datasets? A Case Study with Explainable AI [0.0]
フィッシング(Phishing)は、ユーザーを操り、偽装戦術によって機密性の高い個人情報を暴露するサイバー脅威として広く利用されている。
フィッシングURL(またはウェブサイト)を積極的に検出することは、広く受け入れられた防衛アプローチとして確立されている。
公開されている2つのフィッシングURLデータセットを分析し、それぞれのデータセットにはURL文字列とWebサイトコンテンツに関連する独自の、重複した機能セットがあります。
論文 参考訳(メタデータ) (2024-11-14T21:07:52Z) - Leveraging Mixture of Experts for Improved Speech Deepfake Detection [53.69740463004446]
スピーチのディープフェイクは、個人のセキュリティとコンテンツの信頼性に重大な脅威をもたらす。
本研究では,Mixture of Expertsアーキテクチャを用いた音声深度検出性能の向上のための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T13:24:03Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
機密情報を含む匿名化は、幅広いアプリケーションにとって不可欠である。
既存の技術は、大規模言語モデルの再識別能力の新たな課題に直面している。
本稿では,プライバシ評価器,ユーティリティ評価器,最適化コンポーネントの3つの重要なコンポーネントで構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Novel Interpretable and Robust Web-based AI Platform for Phishing Email Detection [0.0]
フィッシングメールは重大な脅威となり、財政的損失とセキュリティ侵害を引き起こしている。
本研究では,メール分類のための高性能機械学習モデルを提案する。
このモデルはf1スコアが0.99に達し、関連するアプリケーションへのデプロイ用に設計されている。
論文 参考訳(メタデータ) (2024-05-19T17:18:27Z) - Phishing Website Detection through Multi-Model Analysis of HTML Content [0.0]
本研究では,HTMLコンテンツに着目した高度な検出モデルを導入することにより,フィッシングのプレス問題に対処する。
提案手法は、構造化表データのための特殊多層パーセプトロン(MLP)モデルと、テキストの特徴を解析するための2つの事前学習自然言語処理(NLP)モデルを統合する。
2つのNLPと1つのモデルであるMultiText-LPの融合により、96.80 F1スコアと97.18精度スコアが得られた。
論文 参考訳(メタデータ) (2024-01-09T21:08:13Z) - Wild Face Anti-Spoofing Challenge 2023: Benchmark and Results [73.98594459933008]
顔認証システム(FAS)は、顔認識システムの完全性を保護するための重要なメカニズムである。
この制限は、公開可能なFASデータセットの不足と多様性の欠如に起因する可能性がある。
制約のない環境で収集された大規模で多様なFASデータセットであるWild Face Anti-Spoofingデータセットを紹介した。
論文 参考訳(メタデータ) (2023-04-12T10:29:42Z) - Anomaly Detection in Emails using Machine Learning and Header
Information [0.0]
フィッシングやスパムなどのメールの異常は、大きなセキュリティリスクをもたらす。
メールの異常検出に関する従来の研究は、単一のタイプの異常と、メール本体と被写体の内容の分析に頼っていた。
本研究では,メールヘッダデータセットの特徴抽出と抽出を行い,複数クラスおよび一クラスの異常検出手法を利用した。
論文 参考訳(メタデータ) (2022-03-19T23:31:23Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Deep convolutional forest: a dynamic deep ensemble approach for spam
detection in text [219.15486286590016]
本稿では,スパム検出のための動的深層アンサンブルモデルを提案する。
その結果、このモデルは高い精度、リコール、f1スコア、98.38%の精度を達成した。
論文 参考訳(メタデータ) (2021-10-10T17:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。