論文の概要: Classifying spam emails using agglomerative hierarchical clustering and
a topic-based approach
- arxiv url: http://arxiv.org/abs/2402.05296v1
- Date: Wed, 7 Feb 2024 22:19:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 17:11:26.010422
- Title: Classifying spam emails using agglomerative hierarchical clustering and
a topic-based approach
- Title(参考訳): 凝集階層クラスタリングを用いたスパムメールの分類とトピックベースアプローチ
- Authors: F. Janez-Martino, R. Alaiz-Rodriguez, V. Gonzalez-Castro, E. Fidalgo,
and E. Alegre
- Abstract要約: 本研究では,SPEMC-15K-EとSPEMC-15K-Sの2つの新しいデータセットを提案し,それぞれ英語とスペイン語で約15Kのメールを出力し,11のクラスに集約的階層クラスタリングを用いてラベル付けする。
テキスト表現技術 -TF-IDF, Bag of Words, Word2Vec, BERT - と4つの分類器 - Support Vector Machine, N"aive Bayes, Random Forest, Logistic Regression - を組み合わせて16のパイプラインを評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spam emails are unsolicited, annoying and sometimes harmful messages which
may contain malware, phishing or hoaxes. Unlike most studies that address the
design of efficient anti-spam filters, we approach the spam email problem from
a different and novel perspective. Focusing on the needs of cybersecurity
units, we follow a topic-based approach for addressing the classification of
spam email into multiple categories. We propose SPEMC-15K-E and SPEMC-15K-S,
two novel datasets with approximately 15K emails each in English and Spanish,
respectively, and we label them using agglomerative hierarchical clustering
into 11 classes. We evaluate 16 pipelines, combining four text representation
techniques -Term Frequency-Inverse Document Frequency (TF-IDF), Bag of Words,
Word2Vec and BERT- and four classifiers: Support Vector Machine, N\"aive Bayes,
Random Forest and Logistic Regression. Experimental results show that the
highest performance is achieved with TF-IDF and LR for the English dataset,
with a F1 score of 0.953 and an accuracy of 94.6%, and while for the Spanish
dataset, TF-IDF with NB yields a F1 score of 0.945 and 98.5% accuracy.
Regarding the processing time, TF-IDF with LR leads to the fastest
classification, processing an English and Spanish spam email in and on average,
respectively.
- Abstract(参考訳): スパムメールは、マルウェア、フィッシング、または詐欺を含む可能性のある、迷惑な、時には有害なメッセージである。
効率的なアンチスパムフィルタの設計に対処する多くの研究とは異なり、スパムメール問題を異なる、新しい視点からアプローチする。
サイバーセキュリティユニットのニーズに注目して,スパムメールの分類を複数のカテゴリに分類するためのトピックベースアプローチを提案する。
本研究では,SPEMC-15K-EとSPEMC-15K-Sの2つの新しいデータセットを提案し,それぞれ英語とスペイン語で約15Kのメールを出力する。
我々は16のパイプラインを評価し,単語のバグ,Word2Vec,BERTの4つのテキスト表現技術と,サポートベクトルマシン,N\"aive Bayes,ランダムフォレスト,ロジスティック回帰の4つの分類手法を組み合わせた。
実験結果によると、TF-IDFとLRは英語データセットで最高性能を示し、F1スコアは0.953、精度は94.6%、スペインデータセットではTF-IDFとNBは0.945、精度は98.5%である。
処理時間に関して、TF-IDFとLRは、それぞれ英語とスペイン語のスパムメールを平均で処理し、最速の分類に導かれる。
関連論文リスト
- Zero-Shot Spam Email Classification Using Pre-trained Large Language Models [0.0]
本稿では,ゼロショットプロンプトを用いたスパムメール分類における事前学習型大規模言語モデル(LLM)の適用について検討する。
オープンソース (Flan-T5) とプロプライエタリ LLM (ChatGPT, GPT-4) の両方の性能をよく知られた SpamAssassin データセット上で評価した。
論文 参考訳(メタデータ) (2024-05-24T20:55:49Z) - Evaluating the Performance of ChatGPT for Spam Email Detection [9.585304538597414]
本研究は,ChatGPTの英語および中国語のメールデータセットにおけるスパム識別能力を評価することを目的とする。
In-context Learning を用いたスパムメール検出にはChatGPT を用いる。
また,実演回数がChatGPTの性能に与える影響についても検討した。
論文 参考訳(メタデータ) (2024-02-23T04:52:08Z) - Prompted Contextual Vectors for Spear-Phishing Detection [45.07804966535239]
スパイアフィッシング攻撃は重大なセキュリティ上の課題を示す。
本稿では,新しい文書ベクトル化手法に基づく検出手法を提案する。
提案手法は, LLM生成したスピアフィッシングメールの識別において, 91%のF1スコアを達成する。
論文 参考訳(メタデータ) (2024-02-13T09:12:55Z) - Building an Effective Email Spam Classification Model with spaCy [0.0]
著者はPythonプログラミング言語のspurCy自然言語処理ライブラリと3つの機械学習(ML)アルゴリズムを使用して、Gmailサービスから収集されたスパムメールを検出する。
論文 参考訳(メタデータ) (2023-03-15T17:41:11Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Anomaly Detection in Emails using Machine Learning and Header
Information [0.0]
フィッシングやスパムなどのメールの異常は、大きなセキュリティリスクをもたらす。
メールの異常検出に関する従来の研究は、単一のタイプの異常と、メール本体と被写体の内容の分析に頼っていた。
本研究では,メールヘッダデータセットの特徴抽出と抽出を行い,複数クラスおよび一クラスの異常検出手法を利用した。
論文 参考訳(メタデータ) (2022-03-19T23:31:23Z) - Deep convolutional forest: a dynamic deep ensemble approach for spam
detection in text [219.15486286590016]
本稿では,スパム検出のための動的深層アンサンブルモデルを提案する。
その結果、このモデルは高い精度、リコール、f1スコア、98.38%の精度を達成した。
論文 参考訳(メタデータ) (2021-10-10T17:19:37Z) - Detecting Handwritten Mathematical Terms with Sensor Based Data [71.84852429039881]
本稿では,手書きの数学的用語を自動分類する,スタビロによるUbiComp 2021チャレンジの解を提案する。
入力データセットには異なるライターのデータが含まれており、ラベル文字列は合計15の異なる文字から構成されている。
論文 参考訳(メタデータ) (2021-09-12T19:33:34Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - Classification of Spam Emails through Hierarchical Clustering and
Supervised Learning [1.8065361710947976]
本稿では,すでに検出されているスパムメールのハンドリングを改善するために,スパムメールをカテゴリに分類することを提案する。
マルチクラスのスパム分類のタスクでは、TF-IDFをSVMと組み合わせて最高のマイクロF1スコア、95.39%ドル、および(ii)TD-IDFをNBと組み合わせて最速のスパム分類を行い、電子メールを2.13$msで分析する。
論文 参考訳(メタデータ) (2020-05-18T14:41:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。