論文の概要: Context-Aware Phishing Email Detection Using Machine Learning and NLP
- arxiv url: http://arxiv.org/abs/2603.27326v1
- Date: Sat, 28 Mar 2026 16:13:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.90486
- Title: Context-Aware Phishing Email Detection Using Machine Learning and NLP
- Title(参考訳): 機械学習とNLPを用いた文脈対応フィッシングメール検出
- Authors: Amitabh Chakravorty, Matthew Price, Nelly Elsayed, Zag ElSayed,
- Abstract要約: 本稿では,機械学習によるフィッシングメール検出システムを提案する。
本システムは,メールコンテンツ全体からコンテキスト特徴を抽出することにより,電子メールを分類する。
このシステムは、FastAPIバックエンドを備えたWebアプリケーションとしてデプロイされ、平均応答時間127msのリアルタイムフィッシング分類を提供する。
- 参考スコア(独自算出の注目度): 0.13999481573773068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Phishing attacks remain among the most prevalent cybersecurity threats, causing significant financial losses for individuals and organizations worldwide. This paper presents a machine learning-based phishing email detection system that analyzes email body content using natural language processing (NLP) techniques. Unlike existing approaches that primarily focus on URL analysis, our system classifies emails by extracting contextual features from the entire email content. We evaluated two classification models, Naive Bayes and Logistic Regression, trained on a combined corpus of 53,973 labeled emails from three distinct datasets. Our preprocessing pipeline incorporates lowercasing, tokenization, stop-word removal, and lemmatization, followed by Term Frequency-Inverse Document Frequency (TF-IDF) feature extraction with unigrams and bigrams. Experimental results demonstrate that Logistic Regression achieves 95.41% accuracy with an F1-score of 94.33%, outperforming Naive Bayes by 1.55 percentage points. The system was deployed as a web application with a FastAPI backend, providing real-time phishing classification with average response times of 127ms.
- Abstract(参考訳): フィッシング攻撃は依然として最も多いサイバーセキュリティの脅威の1つであり、世界中の個人や組織に重大な経済的損失をもたらしている。
本稿では、自然言語処理(NLP)技術を用いて、メールの身体内容を分析する機械学習ベースのフィッシングメール検出システムを提案する。
URL分析に主眼を置いている既存のアプローチとは異なり、我々のシステムは、メールコンテンツ全体からコンテキスト的特徴を抽出することで、電子メールを分類する。
Naive BayesとLogistic Regressionの2つの分類モデルを評価し、3つの異なるデータセットから53,973のラベル付きメールを合成してトレーニングした。
我々の前処理パイプラインは、小文字化、トークン化、停止語除去、補題化を組み込み、その後、ユニグラムと大文字を用いたTF-IDF(Term Frequency-Inverse Document Frequency)機能抽出を行う。
実験の結果、ロジスティック回帰は95.41%の精度でF1スコア94.33%を獲得し、ネイブベイズを1.55ポイント上回った。
このシステムは、FastAPIバックエンドを備えたWebアプリケーションとしてデプロイされ、平均応答時間127msのリアルタイムフィッシング分類を提供する。
関連論文リスト
- AutoMalDesc: Large-Scale Script Analysis for Cyber Threat Research [81.04845910798387]
脅威検出のための自然言語の説明を生成することは、サイバーセキュリティ研究において未解決の問題である。
本稿では,大規模に独立して動作する自動静的解析要約フレームワークAutoMalDescを紹介する。
アノテーション付きシード(0.9K)データセットや方法論,評価フレームワークなど,100万以上のスクリプトサンプルの完全なデータセットを公開しています。
論文 参考訳(メタデータ) (2025-11-17T13:05:25Z) - Robust ML-based Detection of Conventional, LLM-Generated, and Adversarial Phishing Emails Using Advanced Text Preprocessing [3.3166006294048427]
テキスト前処理パイプラインを拡張したロバストなフィッシングメール検出システムを提案する。
提案手法は,広く採用されている自然言語処理(NLP)の特徴抽出技術と機械学習アルゴリズムを統合する。
フィッシングと正規のEメールの両方からなる公開データセット上で、我々のモデルを評価し、検出精度94.26%、F1スコア84.39%を達成した。
論文 参考訳(メタデータ) (2025-10-13T20:34:19Z) - Characterizing Phishing Pages by JavaScript Capabilities [77.64740286751834]
本論文は,フィッシングページのグループを自動的に識別し,研究者やアナリストを支援することを目的としている。
キット検出の精度は,4,562個のフィッシングURLに展開した548個のキット群に対して97%であった。
UIの対話性と基本的なフィンガープリントは、クラスタの90%と80%に存在する普遍的なテクニックであることが分かりました。
論文 参考訳(メタデータ) (2025-09-16T15:39:23Z) - MeAJOR Corpus: A Multi-Source Dataset for Phishing Email Detection [1.554831836850549]
本稿では,新しいマルチソース・フィッシング・メール・データセットであるMeAJORを提案する。
135894のサンプルが統合されており、フィッシングの戦術と正当なメールが多岐にわたる。
複数のカテゴリから幅広い機能を統合することで、データセットは再利用可能な一貫性のあるリソースを提供します。
論文 参考訳(メタデータ) (2025-07-23T22:57:08Z) - Prompted Contextual Vectors for Spear-Phishing Detection [41.26408609344205]
スパイアフィッシング攻撃は重大なセキュリティ上の課題を示す。
本稿では,新しい文書ベクトル化手法に基づく検出手法を提案する。
提案手法は, LLM生成したスピアフィッシングメールの識別において, 91%のF1スコアを達成する。
論文 参考訳(メタデータ) (2024-02-13T09:12:55Z) - Profiler: Profile-Based Model to Detect Phishing Emails [15.109679047753355]
本稿では,攻撃者がメールに適応して検出を回避できる可能性を低減するために,メールの多次元リスク評価を提案する。
本研究では,(1)脅威レベル,(2)認知的操作,(3)電子メールタイプを分析する3つのモデルを含むリスクアセスメントフレームワークを開発する。
プロファイラは、MLアプローチと併用して、誤分類を減らしたり、トレーニング段階で大規模な電子メールデータセットのラベル付けとして使用することができる。
論文 参考訳(メタデータ) (2022-08-18T10:01:55Z) - Anomaly Detection in Emails using Machine Learning and Header
Information [0.0]
フィッシングやスパムなどのメールの異常は、大きなセキュリティリスクをもたらす。
メールの異常検出に関する従来の研究は、単一のタイプの異常と、メール本体と被写体の内容の分析に頼っていた。
本研究では,メールヘッダデータセットの特徴抽出と抽出を行い,複数クラスおよび一クラスの異常検出手法を利用した。
論文 参考訳(メタデータ) (2022-03-19T23:31:23Z) - Deep convolutional forest: a dynamic deep ensemble approach for spam
detection in text [219.15486286590016]
本稿では,スパム検出のための動的深層アンサンブルモデルを提案する。
その結果、このモデルは高い精度、リコール、f1スコア、98.38%の精度を達成した。
論文 参考訳(メタデータ) (2021-10-10T17:19:37Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。