論文の概要: Robust ML-based Detection of Conventional, LLM-Generated, and Adversarial Phishing Emails Using Advanced Text Preprocessing
- arxiv url: http://arxiv.org/abs/2510.11915v1
- Date: Mon, 13 Oct 2025 20:34:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.089489
- Title: Robust ML-based Detection of Conventional, LLM-Generated, and Adversarial Phishing Emails Using Advanced Text Preprocessing
- Title(参考訳): 高度なテキスト前処理を用いたロバストMLによる従来型, LLM 生成, 反対型フィッシングメールの検出
- Authors: Deeksha Hareesha Kulal, Chidozie Princewill Arannonu, Afsah Anwar, Nidhi Rastogi, Quamar Niyaz,
- Abstract要約: テキスト前処理パイプラインを拡張したロバストなフィッシングメール検出システムを提案する。
提案手法は,広く採用されている自然言語処理(NLP)の特徴抽出技術と機械学習アルゴリズムを統合する。
フィッシングと正規のEメールの両方からなる公開データセット上で、我々のモデルを評価し、検出精度94.26%、F1スコア84.39%を達成した。
- 参考スコア(独自算出の注目度): 3.3166006294048427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Phishing remains a critical cybersecurity threat, especially with the advent of large language models (LLMs) capable of generating highly convincing malicious content. Unlike earlier phishing attempts which are identifiable by grammatical errors, misspellings, incorrect phrasing, and inconsistent formatting, LLM generated emails are grammatically sound, contextually relevant, and linguistically natural. These advancements make phishing emails increasingly difficult to distinguish from legitimate ones, challenging traditional detection mechanisms. Conventional phishing detection systems often fail when faced with emails crafted by LLMs or manipulated using adversarial perturbation techniques. To address this challenge, we propose a robust phishing email detection system featuring an enhanced text preprocessing pipeline. This pipeline includes spelling correction and word splitting to counteract adversarial modifications and improve detection accuracy. Our approach integrates widely adopted natural language processing (NLP) feature extraction techniques and machine learning algorithms. We evaluate our models on publicly available datasets comprising both phishing and legitimate emails, achieving a detection accuracy of 94.26% and F1-score of 84.39% in model deployment setting. To assess robustness, we further evaluate our models using adversarial phishing samples generated by four attack methods in Python TextAttack framework. Additionally, we evaluate models' performance against phishing emails generated by LLMs including ChatGPT and Llama. Results highlight the resilience of models against evolving AI-powered phishing threats.
- Abstract(参考訳): フィッシングは依然として重要なサイバーセキュリティの脅威であり、特に大きな言語モデル(LLM)が出現し、非常に説得力のある悪意のあるコンテンツを生み出している。
文法的誤り、ミススペル、不正確なフレーズ、一貫性のないフォーマッティングによって識別できる以前のフィッシングの試みとは異なり、LLMが生成したメールは文法的に健全で、文脈的に関係があり、言語学的に自然なものである。
これらの進歩により、フィッシングメールは正統なメールと区別することがますます難しくなり、従来の検知メカニズムに挑戦する。
従来のフィッシング検出システムは、LLMによって作成された電子メールや、敵の摂動技術を用いて操作されたメールに直面すると、しばしば失敗する。
この課題に対処するために,拡張されたテキスト前処理パイプラインを特徴とするロバストなフィッシングメール検出システムを提案する。
このパイプラインはスペル補正と単語分割を含み、敵の修正に対処し、検出精度を向上させる。
提案手法は,広く採用されている自然言語処理(NLP)の特徴抽出技術と機械学習アルゴリズムを統合する。
我々は、フィッシングと正当なEメールの両方からなる公開データセット上で、我々のモデルを評価し、モデル展開設定において94.26%、F1スコア84.39%の検出精度を達成した。
ロバスト性を評価するために,Python TextAttackフレームワークの4つの攻撃手法によって生成された逆フィッシングサンプルを用いて,我々のモデルをさらに評価する。
さらに,ChatGPT や Llama など LLM が生成するフィッシングメールに対して,モデルの性能を評価する。
結果は、進化中のAIによるフィッシング脅威に対するモデルのレジリエンスを強調している。
関連論文リスト
- Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors [77.82885394684202]
テキスト検出を効果的に欺く訓練不要な方法である textbfContrastive textbfParaphrase textbfAttack (CoPA) を提案する。
CoPAは、大規模言語モデルによって生成される人間のような分布とは対照的に、補助的な機械的な単語分布を構築している。
我々の理論的分析は、提案された攻撃の優越性を示唆している。
論文 参考訳(メタデータ) (2025-05-21T10:08:39Z) - Debate-Driven Multi-Agent LLMs for Phishing Email Detection [0.0]
エージェント間の偽りの議論をシミュレートしてフィッシングメールを検出する多エージェント大規模言語モデル(LLM)を提案する。
提案手法では,2つの LLM エージェントを用いて,最終判断を代弁する判断エージェントを用いて,分類課題の論拠を提示する。
結果は、議論の構造自体が、余分なプロンプト戦略を伴わずに正確な決定を下すのに十分であることを示している。
論文 参考訳(メタデータ) (2025-03-27T23:18:14Z) - Next-Generation Phishing: How LLM Agents Empower Cyber Attackers [10.067883724547182]
フィッシングメールのエスカレートする脅威は、Large Language Models(LLMs)の台頭により、ますます洗練されつつある。
攻撃者はLSMを利用して、より説得力があり回避的なフィッシングメールを作成するため、現在のフィッシング防御のレジリエンスを評価することが不可欠である。
我々は、Gmail Spam Filter、Apache SpamAssassin、Proofpointなどの従来のフィッシング検出と、SVM、Logistic Regression、Naive Bayesといった機械学習モデルに関する包括的な評価を行います。
以上の結果から,全検知器にまたがるリフレッシュメールの検出精度は著しく低下し,現在のフィッシング防御における重大な弱点が浮き彫りになった。
論文 参考訳(メタデータ) (2024-11-21T06:20:29Z) - ChatSpamDetector: Leveraging Large Language Models for Effective Phishing Email Detection [2.3999111269325266]
本研究では,大規模な言語モデル(LLM)を用いてフィッシングメールを検出するシステムChatSpamDetectorを紹介する。
LLM解析に適したプロンプトに電子メールデータを変換することにより、電子メールがフィッシングされているか否かを高精度に判定する。
総合的なフィッシングメールデータセットを用いて評価を行い,複数のLLMおよびベースラインシステムと比較した。
論文 参考訳(メタデータ) (2024-02-28T06:28:15Z) - An Explainable Transformer-based Model for Phishing Email Detection: A Large Language Model Approach [2.1301560294088318]
フィッシングメール(英: Phishing email)は、機密情報を盗んだり、金銭的損害を与える目的で偽のメールを送ることによって、ユーザーを騙そうとする深刻なサイバー脅威である。
大規模な学術研究にもかかわらず、フィッシング検出はサイバーセキュリティの分野で今も進行中で恐ろしい課題である。
フィッシングメールの検出のために最適化された微調整変換器を用いた DistilBERT モデルを提案する。
論文 参考訳(メタデータ) (2024-02-21T15:23:21Z) - Prompted Contextual Vectors for Spear-Phishing Detection [41.26408609344205]
スパイアフィッシング攻撃は重大なセキュリティ上の課題を示す。
本稿では,新しい文書ベクトル化手法に基づく検出手法を提案する。
提案手法は, LLM生成したスピアフィッシングメールの識別において, 91%のF1スコアを達成する。
論文 参考訳(メタデータ) (2024-02-13T09:12:55Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Deep convolutional forest: a dynamic deep ensemble approach for spam
detection in text [219.15486286590016]
本稿では,スパム検出のための動的深層アンサンブルモデルを提案する。
その結果、このモデルは高い精度、リコール、f1スコア、98.38%の精度を達成した。
論文 参考訳(メタデータ) (2021-10-10T17:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。