論文の概要: Spam Detection Using BERT
- arxiv url: http://arxiv.org/abs/2206.02443v2
- Date: Tue, 7 Jun 2022 21:11:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-09 10:29:25.840641
- Title: Spam Detection Using BERT
- Title(参考訳): BERTを用いたスパム検出
- Authors: Thaer Sahmoud, Dr. Mohammad Mikki
- Abstract要約: BERT事前学習モデルを用いてスパム検知器を構築し,そのコンテキストを理解することで電子メールやメッセージの分類を行う。
スパム検出性能は98.62%,97.83%,99.13%,99.28%であった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emails and SMSs are the most popular tools in today communications, and as
the increase of emails and SMSs users are increase, the number of spams is also
increases. Spam is any kind of unwanted, unsolicited digital communication that
gets sent out in bulk, spam emails and SMSs are causing major resource wastage
by unnecessarily flooding the network links. Although most spam mail originate
with advertisers looking to push their products, some are much more malicious
in their intent like phishing emails that aims to trick victims into giving up
sensitive information like website logins or credit card information this type
of cybercrime is known as phishing. To countermeasure spams, many researches
and efforts are done to build spam detectors that are able to filter out
messages and emails as spam or ham. In this research we build a spam detector
using BERT pre-trained model that classifies emails and messages by
understanding to their context, and we trained our spam detector model using
multiple corpuses like SMS collection corpus, Enron corpus, SpamAssassin
corpus, Ling-Spam corpus and SMS spam collection corpus, our spam detector
performance was 98.62%, 97.83%, 99.13% and 99.28% respectively. Keywords: Spam
Detector, BERT, Machine learning, NLP, Transformer, Enron Corpus, SpamAssassin
Corpus, SMS Spam Detection Corpus, Ling-Spam Corpus.
- Abstract(参考訳): メールやsmsは、今日のコミュニケーションで最も人気のあるツールであり、メールやsmsの利用者の増加に伴い、スパムの数も増加している。
Spamは、大量のスパムメールやSMSで送られてくる、望ましくない、孤立していないデジタルコミュニケーションの一種であり、ネットワークリンクを不必要に浸水させることで、大きなリソース浪費を引き起こしている。
殆どのスパムメールは、商品を売り込もうとする広告主が発するものだが、フィッシングメールのように、被害者を騙してウェブサイトのログインやクレジットカード情報などの機密情報を漏らそうとする行為は、フィッシング(phishing)と呼ばれる。
スパム対策として、スパムやハムとしてメッセージやメールをフィルタリングできるスパム検知器を構築するために、多くの研究や取り組みが行われている。
本研究では,BERT事前学習モデルを用いて電子メールとメッセージの分類を行い,SMS収集コーパス,エンロンコーパス,スパムアサシンコーパス,Ling-Spamコーパス,SMSスパム収集コーパスなどの複数コーパスを用いてスパム検出モデルを訓練し,スパム検出性能は98.62%,97.83%,99.13%,99.28%であった。
キーワード: Spam Detector、BERT、機械学習、NLP、Transformer、Enron Corpus、SpamAssassin Corpus、SMS Spam Detection Corpus、Ling-Spam Corpus。
関連論文リスト
- Investigating the Effectiveness of Bayesian Spam Filters in Detecting LLM-modified Spam Mails [1.6298172960110866]
スパムとフィッシングは、サイバーセキュリティにおける重要な脅威であり、セキュリティインシデントの90%近くを担っている。
これらの攻撃が高度化するにつれて、堅牢な防御機構の必要性が増す。
ChatGPTのような大規模言語モデル(LLM)の出現は、新しい課題を提示している。
本研究は,LLM修正メールコンテンツに対するSpamAssassinの堅牢性と有効性を評価することを目的とする。
論文 参考訳(メタデータ) (2024-08-26T14:25:30Z) - ExplainableDetector: Exploring Transformer-based Language Modeling Approach for SMS Spam Detection with Explainability Analysis [2.849988619791745]
近年、SMSスパムの数は大幅に増加している。
SMSデータの非構造化フォーマットは、SMSスパム検出に重大な課題をもたらす。
我々は、スパムメッセージ検出の問題を解決するために、最適化および微調整された変換器ベース大規模言語モデル(LLM)を用いる。
論文 参考訳(メタデータ) (2024-05-12T11:42:05Z) - SpamDam: Towards Privacy-Preserving and Adversary-Resistant SMS Spam Detection [2.0355793807035094]
SpamDamはSMSスパムの検出と理解において重要な課題を克服するために設計されたSMSスパム検出フレームワークである。
われわれは2018年から2023年にかけて、TwitterとWeiboから76万件以上のSMSスパムメッセージを収集した。
我々は、SMSスパム検出モデルの対角的堅牢性を厳格に検証し、新しいリバースバックドア攻撃を導入した。
論文 参考訳(メタデータ) (2024-04-15T06:07:10Z) - Prompted Contextual Vectors for Spear-Phishing Detection [45.07804966535239]
スパイアフィッシング攻撃は重大なセキュリティ上の課題を示す。
本稿では,新しい文書ベクトル化手法に基づく検出手法を提案する。
提案手法は, LLM生成したスピアフィッシングメールの識別において, 91%のF1スコアを達成する。
論文 参考訳(メタデータ) (2024-02-13T09:12:55Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - Building an Effective Email Spam Classification Model with spaCy [0.0]
著者はPythonプログラミング言語のspurCy自然言語処理ライブラリと3つの機械学習(ML)アルゴリズムを使用して、Gmailサービスから収集されたスパムメールを検出する。
論文 参考訳(メタデータ) (2023-03-15T17:41:11Z) - Deep convolutional forest: a dynamic deep ensemble approach for spam
detection in text [219.15486286590016]
本稿では,スパム検出のための動的深層アンサンブルモデルを提案する。
その結果、このモデルは高い精度、リコール、f1スコア、98.38%の精度を達成した。
論文 参考訳(メタデータ) (2021-10-10T17:19:37Z) - Robust and Verifiable Information Embedding Attacks to Deep Neural
Networks via Error-Correcting Codes [81.85509264573948]
ディープラーニングの時代、ユーザは、サードパーティの機械学習ツールを使用して、ディープニューラルネットワーク(DNN)分類器をトレーニングすることが多い。
情報埋め込み攻撃では、攻撃者は悪意のあるサードパーティの機械学習ツールを提供する。
本研究では,一般的なポストプロセッシング手法に対して検証可能で堅牢な情報埋め込み攻撃を設計することを目的とする。
論文 参考訳(メタデータ) (2020-10-26T17:42:42Z) - Robust Spammer Detection by Nash Reinforcement Learning [64.80986064630025]
我々は,スパマーとスパム検知器が互いに現実的な目標を競うミニマックスゲームを開発する。
提案アルゴリズムは,スパマーが混在するスパマーが実用目標を達成するのを確実に防止できる平衡検出器を確実に見つけることができることを示す。
論文 参考訳(メタデータ) (2020-06-10T21:18:07Z) - Phishing and Spear Phishing: examples in Cyber Espionage and techniques
to protect against them [91.3755431537592]
フィッシング攻撃は、2012年以降、サイバー攻撃の91%以上を突破し、オンライン詐欺で最も使われているテクニックとなっている。
本研究は, フィッシングとスピア・フィッシングによる攻撃が, 結果を大きくする5つのステップを通じて, フィッシングとスピア・フィッシングによる攻撃の実施方法についてレビューした。
論文 参考訳(メタデータ) (2020-05-31T18:10:09Z) - DeepQuarantine for Suspicious Mail [0.0]
DeepQuarantine(DQ)は、潜在的なスパムメッセージを検出し、隔離するクラウド技術である。
隔離されたメールのほとんどはスパムであり、クライアントは遅滞なくメールを使用できる。
論文 参考訳(メタデータ) (2020-01-13T11:32:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。