論文の概要: Classification of Spam Emails through Hierarchical Clustering and
Supervised Learning
- arxiv url: http://arxiv.org/abs/2005.08773v2
- Date: Thu, 28 May 2020 15:36:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 22:56:09.918212
- Title: Classification of Spam Emails through Hierarchical Clustering and
Supervised Learning
- Title(参考訳): 階層的クラスタリングと教師付き学習によるスパムメールの分類
- Authors: Francisco J\'a\~nez-Martino, Eduardo Fidalgo, Santiago
Gonz\'alez-Mart\'inez, Javier Velasco-Mata
- Abstract要約: 本稿では,すでに検出されているスパムメールのハンドリングを改善するために,スパムメールをカテゴリに分類することを提案する。
マルチクラスのスパム分類のタスクでは、TF-IDFをSVMと組み合わせて最高のマイクロF1スコア、95.39%ドル、および(ii)TD-IDFをNBと組み合わせて最速のスパム分類を行い、電子メールを2.13$msで分析する。
- 参考スコア(独自算出の注目度): 1.8065361710947976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spammers take advantage of email popularity to send indiscriminately
unsolicited emails. Although researchers and organizations continuously develop
anti-spam filters based on binary classification, spammers bypass them through
new strategies, like word obfuscation or image-based spam. For the first time
in literature, we propose to classify spam email in categories to improve the
handle of already detected spam emails, instead of just using a binary model.
First, we applied a hierarchical clustering algorithm to create SPEMC-$11$K
(SPam EMail Classification), the first multi-class dataset, which contains
three types of spam emails: Health and Technology, Personal Scams, and Sexual
Content. Then, we used SPEMC-$11$K to evaluate the combination of TF-IDF and
BOW encodings with Na\"ive Bayes, Decision Trees and SVM classifiers. Finally,
we recommend for the task of multi-class spam classification the use of (i)
TF-IDF combined with SVM for the best micro F1 score performance, $95.39\%$,
and (ii) TD-IDF along with NB for the fastest spam classification, analyzing an
email in $2.13$ms.
- Abstract(参考訳): スパマーはメールの人気を利用して、無差別に孤立したメールを送る。
研究者や組織は二項分類に基づくアンチスパムフィルタを継続的に開発しているが、スパマーは単語難読化や画像ベースのスパムといった新しい戦略をバイパスする。
文献ではじめてスパムメールをカテゴリに分類し、単にバイナリモデルを使用するのではなく、既に検出されたスパムメールのハンドリングを改善することを提案する。
まず,SPEMC-$11$K (SPam EMail Classification) の階層的クラスタリングアルゴリズムを適用し,スパムメール3種類(Health and Technology, Personal Scams, Sexual Content)を含む,最初のマルチクラスデータセットを作成した。
次に、SPEMC-$11$Kを用いて、TF-IDFとBOWエンコーディングとNa\\"ive Bayes, Decision Trees, SVM分類器の組み合わせを評価した。
最後に,マルチクラススパム分類の課題について提案する。
(i)TF-IDFとSVMを組み合わせることで、最高のマイクロF1スコア、95.39\%$、そして
(ii)TD-IDFとNBが最速のスパム分類を行い、電子メールを2.13$msで分析する。
関連論文リスト
- Investigating the Effectiveness of Bayesian Spam Filters in Detecting LLM-modified Spam Mails [1.6298172960110866]
スパムとフィッシングは、サイバーセキュリティにおける重要な脅威であり、セキュリティインシデントの90%近くを担っている。
これらの攻撃が高度化するにつれて、堅牢な防御機構の必要性が増す。
ChatGPTのような大規模言語モデル(LLM)の出現は、新しい課題を提示している。
本研究は,LLM修正メールコンテンツに対するSpamAssassinの堅牢性と有効性を評価することを目的とする。
論文 参考訳(メタデータ) (2024-08-26T14:25:30Z) - Federated Combinatorial Multi-Agent Multi-Armed Bandits [79.1700188160944]
本稿では,Banditを用いたオンライン最適化に適したフェデレーション学習フレームワークを提案する。
この設定では、エージェントのアームサブセットは、個々のアーム情報にアクセスせずにこれらのサブセットに対するノイズの多い報酬を観察し、特定の間隔で協力して情報を共有することができる。
論文 参考訳(メタデータ) (2024-05-09T17:40:09Z) - Prompted Contextual Vectors for Spear-Phishing Detection [45.07804966535239]
スパイアフィッシング攻撃は重大なセキュリティ上の課題を示す。
本稿では,新しい文書ベクトル化手法に基づく検出手法を提案する。
提案手法は, LLM生成したスピアフィッシングメールの識別において, 91%のF1スコアを達成する。
論文 参考訳(メタデータ) (2024-02-13T09:12:55Z) - Classifying spam emails using agglomerative hierarchical clustering and
a topic-based approach [0.0]
本研究では,SPEMC-15K-EとSPEMC-15K-Sの2つの新しいデータセットを提案し,それぞれ英語とスペイン語で約15Kのメールを出力し,11のクラスに集約的階層クラスタリングを用いてラベル付けする。
テキスト表現技術 -TF-IDF, Bag of Words, Word2Vec, BERT - と4つの分類器 - Support Vector Machine, N"aive Bayes, Random Forest, Logistic Regression - を組み合わせて16のパイプラインを評価する。
論文 参考訳(メタデータ) (2024-02-07T22:19:08Z) - Building an Effective Email Spam Classification Model with spaCy [0.0]
著者はPythonプログラミング言語のspurCy自然言語処理ライブラリと3つの機械学習(ML)アルゴリズムを使用して、Gmailサービスから収集されたスパムメールを検出する。
論文 参考訳(メタデータ) (2023-03-15T17:41:11Z) - Anomaly Detection in Emails using Machine Learning and Header
Information [0.0]
フィッシングやスパムなどのメールの異常は、大きなセキュリティリスクをもたらす。
メールの異常検出に関する従来の研究は、単一のタイプの異常と、メール本体と被写体の内容の分析に頼っていた。
本研究では,メールヘッダデータセットの特徴抽出と抽出を行い,複数クラスおよび一クラスの異常検出手法を利用した。
論文 参考訳(メタデータ) (2022-03-19T23:31:23Z) - Deep convolutional forest: a dynamic deep ensemble approach for spam
detection in text [219.15486286590016]
本稿では,スパム検出のための動的深層アンサンブルモデルを提案する。
その結果、このモデルは高い精度、リコール、f1スコア、98.38%の精度を達成した。
論文 参考訳(メタデータ) (2021-10-10T17:19:37Z) - Rank-Consistency Deep Hashing for Scalable Multi-Label Image Search [90.30623718137244]
スケーラブルなマルチラベル画像検索のための新しいディープハッシュ法を提案する。
2つの空間の類似性順序を整列するために、新しい階数整合性目的を適用した。
強力な損失関数は、意味的類似性とハミング距離が一致しないサンプルをペナルティ化するように設計されている。
論文 参考訳(メタデータ) (2021-02-02T13:46:58Z) - Privacy-Preserving Spam Filtering using Functional Encryption [1.0019926246026924]
我々は,暗号化メールの分類を可能にするスパム分類フレームワークを構築した。
本モデルは,2層ネットワーク部と多層知覚ネットワーク部を有するニューラルネットワークに基づく。
実世界のスパムデータセットの評価結果は,提案したスパム分類モデルが96%以上の精度を達成していることを示している。
論文 参考訳(メタデータ) (2020-12-08T02:14:28Z) - Robust and Verifiable Information Embedding Attacks to Deep Neural
Networks via Error-Correcting Codes [81.85509264573948]
ディープラーニングの時代、ユーザは、サードパーティの機械学習ツールを使用して、ディープニューラルネットワーク(DNN)分類器をトレーニングすることが多い。
情報埋め込み攻撃では、攻撃者は悪意のあるサードパーティの機械学習ツールを提供する。
本研究では,一般的なポストプロセッシング手法に対して検証可能で堅牢な情報埋め込み攻撃を設計することを目的とする。
論文 参考訳(メタデータ) (2020-10-26T17:42:42Z) - Learning with Weak Supervision for Email Intent Detection [56.71599262462638]
本稿では,メールの意図を検出するために,ユーザアクションを弱い監視源として活用することを提案する。
メール意図識別のためのエンドツーエンドの堅牢なディープニューラルネットワークモデルを開発した。
論文 参考訳(メタデータ) (2020-05-26T23:41:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。