論文の概要: Building an Effective Email Spam Classification Model with spaCy
- arxiv url: http://arxiv.org/abs/2303.08792v1
- Date: Wed, 15 Mar 2023 17:41:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 12:43:52.036879
- Title: Building an Effective Email Spam Classification Model with spaCy
- Title(参考訳): SpaCyを用いた効果的なメールスパム分類モデルの構築
- Authors: Kazem Taghandiki
- Abstract要約: 著者はPythonプログラミング言語のspurCy自然言語処理ライブラリと3つの機械学習(ML)アルゴリズムを使用して、Gmailサービスから収集されたスパムメールを検出する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Today, people use email services such as Gmail, Outlook, AOL Mail, etc. to
communicate with each other as quickly as possible to send information and
official letters. Spam or junk mail is a major challenge to this type of
communication, usually sent by botnets with the aim of advertising, harming and
stealing information in bulk to different people. Receiving unwanted spam
emails on a daily basis fills up the inbox folder. Therefore, spam detection is
a fundamental challenge, so far many works have been done to detect spam using
clustering and text categorisation methods. In this article, the author has
used the spaCy natural language processing library and 3 machine learning (ML)
algorithms Naive Bayes (NB), Decision Tree C45 and Multilayer Perceptron (MLP)
in the Python programming language to detect spam emails collected from the
Gmail service. Observations show the accuracy rate (96%) of the Multilayer
Perceptron (MLP) algorithm in spam detection.
- Abstract(参考訳): 今日では、Gmail、Outlook、AOL Mailなどのメールサービスを使って、できるだけ早く互いにコミュニケーションし、情報や公式の手紙を送ることができる。
スパムメールやジャンクメールはこの種のコミュニケーションにとって大きな課題であり、通常はボットネットが広告や個人情報を大量に盗む目的で送っている。
毎日不要なスパムメールを受け取ると、受信箱のフォルダーがいっぱいになる。
したがって、スパム検出は基本的な課題であり、クラスタリングやテキスト分類手法を用いてスパムを検出するために多くの研究がなされている。
本稿では,Pythonの自然言語処理ライブラリであるpaCyと3つの機械学習アルゴリズムであるNaive Bayes(NB),Decision Tree C45,Multilayer Perceptron(MLP)を用いて,Gmailサービスから収集したスパムメールを検出する。
スパム検出における多層パーセプトロン(MLP)アルゴリズムの精度(96%)が観察された。
関連論文リスト
- A Late Multi-Modal Fusion Model for Detecting Hybrid Spam E-mail [5.182080825408661]
ハイブリッドスパムメールの検出を目的とした研究がいくつか行われている。
光文字認識はテキストと画像のハイブリッドスパム処理において非常に成功した技術である。
テキストと画像のハイブリッドスパム電子メールフィルタリングシステムのための,新しいマルチモーダル融合訓練フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-26T10:47:12Z) - Spam Detection Using BERT [0.0]
BERT事前学習モデルを用いてスパム検知器を構築し,そのコンテキストを理解することで電子メールやメッセージの分類を行う。
スパム検出性能は98.62%,97.83%,99.13%,99.28%であった。
論文 参考訳(メタデータ) (2022-06-06T09:09:40Z) - Anomaly Detection in Emails using Machine Learning and Header
Information [0.0]
フィッシングやスパムなどのメールの異常は、大きなセキュリティリスクをもたらす。
メールの異常検出に関する従来の研究は、単一のタイプの異常と、メール本体と被写体の内容の分析に頼っていた。
本研究では,メールヘッダデータセットの特徴抽出と抽出を行い,複数クラスおよび一クラスの異常検出手法を利用した。
論文 参考訳(メタデータ) (2022-03-19T23:31:23Z) - Deep convolutional forest: a dynamic deep ensemble approach for spam
detection in text [219.15486286590016]
本稿では,スパム検出のための動的深層アンサンブルモデルを提案する。
その結果、このモデルは高い精度、リコール、f1スコア、98.38%の精度を達成した。
論文 参考訳(メタデータ) (2021-10-10T17:19:37Z) - Robust and Verifiable Information Embedding Attacks to Deep Neural
Networks via Error-Correcting Codes [81.85509264573948]
ディープラーニングの時代、ユーザは、サードパーティの機械学習ツールを使用して、ディープニューラルネットワーク(DNN)分類器をトレーニングすることが多い。
情報埋め込み攻撃では、攻撃者は悪意のあるサードパーティの機械学習ツールを提供する。
本研究では,一般的なポストプロセッシング手法に対して検証可能で堅牢な情報埋め込み攻撃を設計することを目的とする。
論文 参考訳(メタデータ) (2020-10-26T17:42:42Z) - Maat: Automatically Analyzing VirusTotal for Accurate Labeling and
Effective Malware Detection [71.84087757644708]
マルウェア分析と検出の研究コミュニティは、約60台のスキャナーのスキャン結果に基づいてAndroidアプリをラベル付けするために、オンラインプラットフォームVirusTotalに依存している。
VirusTotalから取得したスキャン結果を最もよく解釈する方法の基準はありません。
機械学習(ML)ベースのラベリングスキームを自動生成することで,標準化と持続可能性というこれらの問題に対処する手法であるMaatを実装した。
論文 参考訳(メタデータ) (2020-07-01T14:15:03Z) - Robust Spammer Detection by Nash Reinforcement Learning [64.80986064630025]
我々は,スパマーとスパム検知器が互いに現実的な目標を競うミニマックスゲームを開発する。
提案アルゴリズムは,スパマーが混在するスパマーが実用目標を達成するのを確実に防止できる平衡検出器を確実に見つけることができることを示す。
論文 参考訳(メタデータ) (2020-06-10T21:18:07Z) - Learning with Weak Supervision for Email Intent Detection [56.71599262462638]
本稿では,メールの意図を検出するために,ユーザアクションを弱い監視源として活用することを提案する。
メール意図識別のためのエンドツーエンドの堅牢なディープニューラルネットワークモデルを開発した。
論文 参考訳(メタデータ) (2020-05-26T23:41:05Z) - Classification of Spam Emails through Hierarchical Clustering and
Supervised Learning [1.8065361710947976]
本稿では,すでに検出されているスパムメールのハンドリングを改善するために,スパムメールをカテゴリに分類することを提案する。
マルチクラスのスパム分類のタスクでは、TF-IDFをSVMと組み合わせて最高のマイクロF1スコア、95.39%ドル、および(ii)TD-IDFをNBと組み合わせて最速のスパム分類を行い、電子メールを2.13$msで分析する。
論文 参考訳(メタデータ) (2020-05-18T14:41:22Z) - Enabling Language Models to Fill in the Blanks [81.59381915581892]
文書中の任意の位置にあるテキストの欠落を予測するタスクである,テキストを埋め込むためのシンプルなアプローチを提案する。
我々は、人工的にマスキングされたテキストと隠蔽されたテキストの連結を含むシーケンスに基づいて、オフザシェルフ言語モデル(またはファインチューン)を訓練する。
言語モデリングにより,この手法により,3つの分野(短編,科学的な要約,歌詞)において,LMが文全体を効果的に埋め込むことができることを示す。
論文 参考訳(メタデータ) (2020-05-11T18:00:03Z) - DeepQuarantine for Suspicious Mail [0.0]
DeepQuarantine(DQ)は、潜在的なスパムメッセージを検出し、隔離するクラウド技術である。
隔離されたメールのほとんどはスパムであり、クライアントは遅滞なくメールを使用できる。
論文 参考訳(メタデータ) (2020-01-13T11:32:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。