論文の概要: SMS Spam Detection and Classification to Combat Abuse in Telephone Networks Using Natural Language Processing
- arxiv url: http://arxiv.org/abs/2406.06578v1
- Date: Tue, 4 Jun 2024 13:44:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 00:04:06.891252
- Title: SMS Spam Detection and Classification to Combat Abuse in Telephone Networks Using Natural Language Processing
- Title(参考訳): 自然言語処理を用いた電話ネットワークのSMSスパム検出とコンバットの分類
- Authors: Dare Azeez Oyeyemi, Adebola K. Ojo,
- Abstract要約: この研究は、ユーザのプライバシーとセキュリティに脅威をもたらすSMSスパムの広範にわたる問題に対処する。
本研究では、自然言語処理(NLP)と機械学習モデル、特にスパム検出と分類にBERT(Bidirectional Representations from Transformers)を利用した新しいアプローチを提案する。
評価の結果、Na"ive Bayes + BERT"モデルは97.31%の精度で、テストデータセットでは0.3秒で実行された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the modern era, mobile phones have become ubiquitous, and Short Message Service (SMS) has grown to become a multi-million-dollar service due to the widespread adoption of mobile devices and the millions of people who use SMS daily. However, SMS spam has also become a pervasive problem that endangers users' privacy and security through phishing and fraud. Despite numerous spam filtering techniques, there is still a need for a more effective solution to address this problem [1]. This research addresses the pervasive issue of SMS spam, which poses threats to users' privacy and security. Despite existing spam filtering techniques, the high false-positive rate persists as a challenge. The study introduces a novel approach utilizing Natural Language Processing (NLP) and machine learning models, particularly BERT (Bidirectional Encoder Representations from Transformers), for SMS spam detection and classification. Data preprocessing techniques, such as stop word removal and tokenization, are applied, along with feature extraction using BERT. Machine learning models, including SVM, Logistic Regression, Naive Bayes, Gradient Boosting, and Random Forest, are integrated with BERT for differentiating spam from ham messages. Evaluation results revealed that the Na\"ive Bayes classifier + BERT model achieves the highest accuracy at 97.31% with the fastest execution time of 0.3 seconds on the test dataset. This approach demonstrates a notable enhancement in spam detection efficiency and a low false-positive rate. The developed model presents a valuable solution to combat SMS spam, ensuring faster and more accurate detection. This model not only safeguards users' privacy but also assists network providers in effectively identifying and blocking SMS spam messages.
- Abstract(参考訳): 現代では、携帯電話が普及し、SMS(Short Message Service)は、モバイルデバイスの普及と、SMSを毎日使っている何百万人もの人びとのために、数百万ドルものサービスへと成長している。
しかし、SMSスパムはまた、フィッシングや詐欺によってユーザーのプライバシーとセキュリティを危険にさらす広範囲な問題となっている。
多くのスパムフィルタリング技術があるにもかかわらず、この問題に対処するためには、より効果的なソリューションが必要である[1]。
この研究は、ユーザのプライバシーとセキュリティに脅威をもたらすSMSスパムの広範にわたる問題に対処する。
既存のスパムフィルタリング技術にもかかわらず、高い偽陽性率は課題として持続する。
本研究では,自然言語処理(NLP)と機械学習モデル,特にBERT(Bidirectional Encoder Representations from Transformers)を用いたSMSスパム検出と分類手法を提案する。
BERTを用いた特徴抽出とともに,停止語除去やトークン化などのデータ前処理技術を適用した。
SVM、Logistic Regression、Naive Bayes、Gradient Boosting、Random Forestといった機械学習モデルがBERTに統合され、ハムメッセージからスパムを識別する。
評価の結果、Na\"ive Bayes分類器+BERTモデルは、テストデータセットで0.3秒の高速実行時間で97.31%の精度を達成することがわかった。
このアプローチはスパム検出効率の顕著な向上と偽陽性率の低下を示す。
開発されたモデルでは、SMSスパムと戦うための貴重なソリューションが提示され、より高速で正確な検出が保証される。
このモデルは、ユーザのプライバシを保護するだけでなく、ネットワークプロバイダがSMSスパムメッセージを効果的に識別し、ブロックするのを助ける。
関連論文リスト
- ExplainableDetector: Exploring Transformer-based Language Modeling Approach for SMS Spam Detection with Explainability Analysis [2.849988619791745]
近年、SMSスパムの数は大幅に増加している。
SMSデータの非構造化フォーマットは、SMSスパム検出に重大な課題をもたらす。
我々は、スパムメッセージ検出の問題を解決するために、最適化および微調整された変換器ベース大規模言語モデル(LLM)を用いる。
論文 参考訳(メタデータ) (2024-05-12T11:42:05Z) - Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore [51.65730053591696]
単純だが効果的なブラックボックスゼロショット検出手法を提案する。
人文テキストは典型的には LLM 生成テキストよりも文法上の誤りを多く含んでいる。
提案手法は平均98.7%のAUROCを達成し,パラフレーズや逆行性摂動攻撃に対する強い堅牢性を示した。
論文 参考訳(メタデータ) (2024-05-07T12:57:01Z) - SpamDam: Towards Privacy-Preserving and Adversary-Resistant SMS Spam Detection [2.0355793807035094]
SpamDamはSMSスパムの検出と理解において重要な課題を克服するために設計されたSMSスパム検出フレームワークである。
われわれは2018年から2023年にかけて、TwitterとWeiboから76万件以上のSMSスパムメッセージを収集した。
我々は、SMSスパム検出モデルの対角的堅牢性を厳格に検証し、新しいリバースバックドア攻撃を導入した。
論文 参考訳(メタデータ) (2024-04-15T06:07:10Z) - Evaluating the Performance of ChatGPT for Spam Email Detection [9.585304538597414]
本研究は,ChatGPTの英語および中国語のメールデータセットにおけるスパム識別能力を評価することを目的とする。
In-context Learning を用いたスパムメール検出にはChatGPT を用いる。
また,実演回数がChatGPTの性能に与える影響についても検討した。
論文 参考訳(メタデータ) (2024-02-23T04:52:08Z) - Commercial Anti-Smishing Tools and Their Comparative Effectiveness Against Modern Threats [0.0]
本研究は,新鮮スマイッシング攻撃に対する反スマイッシングツールの有効性を評価するためのテストベッドを開発した。
ほとんどのアンチフィッシングアプリやバルクメッセージングサービスは、キャリアブロック以上のスマイシングメッセージをフィルタリングしなかった。
通信事業者は良質なメッセージをブロックしなかったが、スマイシングメッセージのブロックレートは25~35%に留まった。
論文 参考訳(メタデータ) (2023-09-14T06:08:22Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - Spam Detection Using BERT [0.0]
BERT事前学習モデルを用いてスパム検知器を構築し,そのコンテキストを理解することで電子メールやメッセージの分類を行う。
スパム検出性能は98.62%,97.83%,99.13%,99.28%であった。
論文 参考訳(メタデータ) (2022-06-06T09:09:40Z) - Deep convolutional forest: a dynamic deep ensemble approach for spam
detection in text [219.15486286590016]
本稿では,スパム検出のための動的深層アンサンブルモデルを提案する。
その結果、このモデルは高い精度、リコール、f1スコア、98.38%の精度を達成した。
論文 参考訳(メタデータ) (2021-10-10T17:19:37Z) - Robust and Verifiable Information Embedding Attacks to Deep Neural
Networks via Error-Correcting Codes [81.85509264573948]
ディープラーニングの時代、ユーザは、サードパーティの機械学習ツールを使用して、ディープニューラルネットワーク(DNN)分類器をトレーニングすることが多い。
情報埋め込み攻撃では、攻撃者は悪意のあるサードパーティの機械学習ツールを提供する。
本研究では,一般的なポストプロセッシング手法に対して検証可能で堅牢な情報埋め込み攻撃を設計することを目的とする。
論文 参考訳(メタデータ) (2020-10-26T17:42:42Z) - TextHide: Tackling Data Privacy in Language Understanding Tasks [54.11691303032022]
TextHideは、トレーニングを遅くしたり、精度を下げることなく、プライバシー上のリスクを軽減する。
すべての参加者は、盗聴攻撃者がプライベートテキストデータを復元するのを防ぐために、簡単な暗号化ステップを追加する必要がある。
我々は、GLUEベンチマーク上でTextHideを評価し、TextHideが共有勾配や表現に対する攻撃を効果的に防御できることを示す。
論文 参考訳(メタデータ) (2020-10-12T22:22:15Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。