論文の概要: E-PhishGen: Unlocking Novel Research in Phishing Email Detection
- arxiv url: http://arxiv.org/abs/2509.01791v1
- Date: Mon, 01 Sep 2025 21:41:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.845928
- Title: E-PhishGen: Unlocking Novel Research in Phishing Email Detection
- Title(参考訳): E-PhishGen: フィッシングメール検出の新しい研究を解き放つ
- Authors: Luca Pajola, Eugenio Caripoti, Simeone Pizzi, Mauro Conti, Stefan Banzer, Giovanni Apruzzese,
- Abstract要約: この「オープン・イシュー」論文は、フィッシングメール検出の文脈における科学的研究の批判的評価を行う。
フィッシングメールの検出は依然としてオープンな問題であり、将来の研究によってそのような問題に対処する手段を提供する。
- 参考スコア(独自算出の注目度): 17.071710380823003
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Every day, our inboxes are flooded with unsolicited emails, ranging between annoying spam to more subtle phishing scams. Unfortunately, despite abundant prior efforts proposing solutions achieving near-perfect accuracy, the reality is that countering malicious emails still remains an unsolved dilemma. This "open problem" paper carries out a critical assessment of scientific works in the context of phishing email detection. First, we focus on the benchmark datasets that have been used to assess the methods proposed in research. We find that most prior work relied on datasets containing emails that -- we argue -- are not representative of current trends, and mostly encompass the English language. Based on this finding, we then re-implement and re-assess a variety of detection methods reliant on machine learning (ML), including large-language models (LLM), and release all of our codebase -- an (unfortunately) uncommon practice in related research. We show that most such methods achieve near-perfect performance when trained and tested on the same dataset -- a result which intrinsically hinders development (how can future research outperform methods that are already near perfect?). To foster the creation of "more challenging benchmarks" that reflect current phishing trends, we propose E-PhishGEN, an LLM-based (and privacy-savvy) framework to generate novel phishing-email datasets. We use our E-PhishGEN to create E-PhishLLM, a novel phishing-email detection dataset containing 16616 emails in three languages. We use E-PhishLLM to test the detectors we considered, showing a much lower performance than that achieved on existing benchmarks -- indicating a larger room for improvement. We also validate the quality of E-PhishLLM with a user study (n=30). To sum up, we show that phishing email detection is still an open problem -- and provide the means to tackle such a problem by future research.
- Abstract(参考訳): 毎日、私たちの受信箱には、迷惑なスパムからより微妙なフィッシング詐欺まで、無意味なメールがあふれています。
残念なことに、未解決の精度をほぼ完璧に達成するためのソリューションを提案している多くの先行努力にもかかわらず、悪意のあるメールに対抗することは依然として未解決のジレンマである。
この「オープン・イシュー」論文は、フィッシングメール検出の文脈における科学的研究の批判的評価を行う。
まず,提案手法の評価に使用されたベンチマークデータセットに注目した。
これまでの作業のほとんどは、現在のトレンドを表すものではなく、主に英語を含む、電子メールを含むデータセットに依存していたことが分かっています。
この発見に基づいて、大規模言語モデル(LLM)を含む機械学習(ML)に依存するさまざまな検出メソッドを再実装し、再評価し、関連する研究で(不幸にも)珍しいプラクティスであるコードベースをすべてリリースします。
このような手法のほとんどは、同じデータセット上でトレーニングされ、テストされた場合、ほぼ完璧なパフォーマンスを達成することを示しています。
現在のフィッシング傾向を反映した"より挑戦的なベンチマーク"の作成を促進するため、我々は、新しいフィッシング・メールデータセットを生成するLLMベースの(プライバシーに精通した)フレームワークであるE-PhishGENを提案する。
E-PhishLLMは3つの言語で1616のメールを含む新しいフィッシング・メール検出データセットである。
E-PhishLLMを使って検討した検出器をテストしています。
また,ユーザスタディ(n=30)によるE-PhishLLMの品質評価を行った。
まとめると、フィッシングメール検出は依然として未解決の問題であり、将来の研究でこのような問題に対処する手段を提供する。
関連論文リスト
- MeAJOR Corpus: A Multi-Source Dataset for Phishing Email Detection [0.0]
本稿では,新しいマルチソース・フィッシング・メール・データセットであるMeAJORを提案する。
135894のサンプルが統合されており、フィッシングの戦術と正当なメールが多岐にわたる。
複数のカテゴリから幅広い機能を統合することで、データセットは再利用可能な一貫性のあるリソースを提供します。
論文 参考訳(メタデータ) (2025-07-23T22:57:08Z) - Enhancing Phishing Email Identification with Large Language Models [0.40792653193642503]
フィッシングメールの検出における大規模言語モデル(LLM)の有効性について検討した。
実験により, LLMは高精度で高い精度を達成することが示された。
論文 参考訳(メタデータ) (2025-02-07T08:45:50Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Prompted Contextual Vectors for Spear-Phishing Detection [41.26408609344205]
スパイアフィッシング攻撃は重大なセキュリティ上の課題を示す。
本稿では,新しい文書ベクトル化手法に基づく検出手法を提案する。
提案手法は, LLM生成したスピアフィッシングメールの識別において, 91%のF1スコアを達成する。
論文 参考訳(メタデータ) (2024-02-13T09:12:55Z) - Profiler: Profile-Based Model to Detect Phishing Emails [15.109679047753355]
本稿では,攻撃者がメールに適応して検出を回避できる可能性を低減するために,メールの多次元リスク評価を提案する。
本研究では,(1)脅威レベル,(2)認知的操作,(3)電子メールタイプを分析する3つのモデルを含むリスクアセスメントフレームワークを開発する。
プロファイラは、MLアプローチと併用して、誤分類を減らしたり、トレーニング段階で大規模な電子メールデータセットのラベル付けとして使用することができる。
論文 参考訳(メタデータ) (2022-08-18T10:01:55Z) - Black-box Dataset Ownership Verification via Backdoor Watermarking [67.69308278379957]
我々は、リリースデータセットの保護を、(目立たしい)サードパーティモデルのトレーニングに採用されているかどうかの検証として定式化する。
バックドアの透かしを通じて外部パターンを埋め込んでオーナシップの検証を行い,保護することを提案する。
具体的には、有毒なバックドア攻撃(例えばBadNets)をデータセットのウォーターマーキングに利用し、データセット検証のための仮説テストガイダンスメソッドを設計する。
論文 参考訳(メタデータ) (2022-08-04T05:32:20Z) - Anomaly Detection in Emails using Machine Learning and Header
Information [0.0]
フィッシングやスパムなどのメールの異常は、大きなセキュリティリスクをもたらす。
メールの異常検出に関する従来の研究は、単一のタイプの異常と、メール本体と被写体の内容の分析に頼っていた。
本研究では,メールヘッダデータセットの特徴抽出と抽出を行い,複数クラスおよび一クラスの異常検出手法を利用した。
論文 参考訳(メタデータ) (2022-03-19T23:31:23Z) - Phishing Detection through Email Embeddings [2.099922236065961]
機械学習技術によるフィッシングメール検出の問題点は文献で広く議論されている。
本稿では,電子メールの埋め込みによってこれらの手がかりが捉えられるか無視されるかを調べるために,同様の指標を用いたフィッシングと正当性メールのセットを構築した。
以上の結果から,eメール埋め込み手法は,メールをフィッシングあるいは正当に分類するのに有効であることが示された。
論文 参考訳(メタデータ) (2020-12-28T21:16:41Z) - Learning with Weak Supervision for Email Intent Detection [56.71599262462638]
本稿では,メールの意図を検出するために,ユーザアクションを弱い監視源として活用することを提案する。
メール意図識別のためのエンドツーエンドの堅牢なディープニューラルネットワークモデルを開発した。
論文 参考訳(メタデータ) (2020-05-26T23:41:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。