論文の概要: Spam Detection Using BERT
- arxiv url: http://arxiv.org/abs/2206.02443v2
- Date: Tue, 7 Jun 2022 21:11:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-09 10:29:25.840641
- Title: Spam Detection Using BERT
- Title(参考訳): BERTを用いたスパム検出
- Authors: Thaer Sahmoud, Dr. Mohammad Mikki
- Abstract要約: BERT事前学習モデルを用いてスパム検知器を構築し,そのコンテキストを理解することで電子メールやメッセージの分類を行う。
スパム検出性能は98.62%,97.83%,99.13%,99.28%であった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emails and SMSs are the most popular tools in today communications, and as
the increase of emails and SMSs users are increase, the number of spams is also
increases. Spam is any kind of unwanted, unsolicited digital communication that
gets sent out in bulk, spam emails and SMSs are causing major resource wastage
by unnecessarily flooding the network links. Although most spam mail originate
with advertisers looking to push their products, some are much more malicious
in their intent like phishing emails that aims to trick victims into giving up
sensitive information like website logins or credit card information this type
of cybercrime is known as phishing. To countermeasure spams, many researches
and efforts are done to build spam detectors that are able to filter out
messages and emails as spam or ham. In this research we build a spam detector
using BERT pre-trained model that classifies emails and messages by
understanding to their context, and we trained our spam detector model using
multiple corpuses like SMS collection corpus, Enron corpus, SpamAssassin
corpus, Ling-Spam corpus and SMS spam collection corpus, our spam detector
performance was 98.62%, 97.83%, 99.13% and 99.28% respectively. Keywords: Spam
Detector, BERT, Machine learning, NLP, Transformer, Enron Corpus, SpamAssassin
Corpus, SMS Spam Detection Corpus, Ling-Spam Corpus.
- Abstract(参考訳): メールやsmsは、今日のコミュニケーションで最も人気のあるツールであり、メールやsmsの利用者の増加に伴い、スパムの数も増加している。
Spamは、大量のスパムメールやSMSで送られてくる、望ましくない、孤立していないデジタルコミュニケーションの一種であり、ネットワークリンクを不必要に浸水させることで、大きなリソース浪費を引き起こしている。
殆どのスパムメールは、商品を売り込もうとする広告主が発するものだが、フィッシングメールのように、被害者を騙してウェブサイトのログインやクレジットカード情報などの機密情報を漏らそうとする行為は、フィッシング(phishing)と呼ばれる。
スパム対策として、スパムやハムとしてメッセージやメールをフィルタリングできるスパム検知器を構築するために、多くの研究や取り組みが行われている。
本研究では,BERT事前学習モデルを用いて電子メールとメッセージの分類を行い,SMS収集コーパス,エンロンコーパス,スパムアサシンコーパス,Ling-Spamコーパス,SMSスパム収集コーパスなどの複数コーパスを用いてスパム検出モデルを訓練し,スパム検出性能は98.62%,97.83%,99.13%,99.28%であった。
キーワード: Spam Detector、BERT、機械学習、NLP、Transformer、Enron Corpus、SpamAssassin Corpus、SMS Spam Detection Corpus、Ling-Spam Corpus。
関連論文リスト
- Prompted Contextual Vectors for Spear-Phishing Detection [45.07804966535239]
スパイアフィッシング攻撃は重大なセキュリティ上の課題を示す。
本稿では,新しい文書ベクトル化手法に基づく検出手法を提案する。
提案手法は, LLM生成したスピアフィッシングメールの識別において, 91%のF1スコアを達成する。
論文 参考訳(メタデータ) (2024-02-13T09:12:55Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - Building an Effective Email Spam Classification Model with spaCy [0.0]
著者はPythonプログラミング言語のspurCy自然言語処理ライブラリと3つの機械学習(ML)アルゴリズムを使用して、Gmailサービスから収集されたスパムメールを検出する。
論文 参考訳(メタデータ) (2023-03-15T17:41:11Z) - Anomaly Detection in Emails using Machine Learning and Header
Information [0.0]
フィッシングやスパムなどのメールの異常は、大きなセキュリティリスクをもたらす。
メールの異常検出に関する従来の研究は、単一のタイプの異常と、メール本体と被写体の内容の分析に頼っていた。
本研究では,メールヘッダデータセットの特徴抽出と抽出を行い,複数クラスおよび一クラスの異常検出手法を利用した。
論文 参考訳(メタデータ) (2022-03-19T23:31:23Z) - Deep convolutional forest: a dynamic deep ensemble approach for spam
detection in text [219.15486286590016]
本稿では,スパム検出のための動的深層アンサンブルモデルを提案する。
その結果、このモデルは高い精度、リコール、f1スコア、98.38%の精度を達成した。
論文 参考訳(メタデータ) (2021-10-10T17:19:37Z) - Privacy-Preserving Spam Filtering using Functional Encryption [1.0019926246026924]
我々は,暗号化メールの分類を可能にするスパム分類フレームワークを構築した。
本モデルは,2層ネットワーク部と多層知覚ネットワーク部を有するニューラルネットワークに基づく。
実世界のスパムデータセットの評価結果は,提案したスパム分類モデルが96%以上の精度を達成していることを示している。
論文 参考訳(メタデータ) (2020-12-08T02:14:28Z) - Robust and Verifiable Information Embedding Attacks to Deep Neural
Networks via Error-Correcting Codes [81.85509264573948]
ディープラーニングの時代、ユーザは、サードパーティの機械学習ツールを使用して、ディープニューラルネットワーク(DNN)分類器をトレーニングすることが多い。
情報埋め込み攻撃では、攻撃者は悪意のあるサードパーティの機械学習ツールを提供する。
本研究では,一般的なポストプロセッシング手法に対して検証可能で堅牢な情報埋め込み攻撃を設計することを目的とする。
論文 参考訳(メタデータ) (2020-10-26T17:42:42Z) - Robust Spammer Detection by Nash Reinforcement Learning [64.80986064630025]
我々は,スパマーとスパム検知器が互いに現実的な目標を競うミニマックスゲームを開発する。
提案アルゴリズムは,スパマーが混在するスパマーが実用目標を達成するのを確実に防止できる平衡検出器を確実に見つけることができることを示す。
論文 参考訳(メタデータ) (2020-06-10T21:18:07Z) - Phishing and Spear Phishing: examples in Cyber Espionage and techniques
to protect against them [91.3755431537592]
フィッシング攻撃は、2012年以降、サイバー攻撃の91%以上を突破し、オンライン詐欺で最も使われているテクニックとなっている。
本研究は, フィッシングとスピア・フィッシングによる攻撃が, 結果を大きくする5つのステップを通じて, フィッシングとスピア・フィッシングによる攻撃の実施方法についてレビューした。
論文 参考訳(メタデータ) (2020-05-31T18:10:09Z) - Classification of Spam Emails through Hierarchical Clustering and
Supervised Learning [1.8065361710947976]
本稿では,すでに検出されているスパムメールのハンドリングを改善するために,スパムメールをカテゴリに分類することを提案する。
マルチクラスのスパム分類のタスクでは、TF-IDFをSVMと組み合わせて最高のマイクロF1スコア、95.39%ドル、および(ii)TD-IDFをNBと組み合わせて最速のスパム分類を行い、電子メールを2.13$msで分析する。
論文 参考訳(メタデータ) (2020-05-18T14:41:22Z) - DeepQuarantine for Suspicious Mail [0.0]
DeepQuarantine(DQ)は、潜在的なスパムメッセージを検出し、隔離するクラウド技術である。
隔離されたメールのほとんどはスパムであり、クライアントは遅滞なくメールを使用できる。
論文 参考訳(メタデータ) (2020-01-13T11:32:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。