論文の概要: Leveraging Large Language Models for Cybersecurity: Enhancing SMS Spam Detection with Robust and Context-Aware Text Classification
- arxiv url: http://arxiv.org/abs/2502.11014v1
- Date: Sun, 16 Feb 2025 06:39:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:07:58.511334
- Title: Leveraging Large Language Models for Cybersecurity: Enhancing SMS Spam Detection with Robust and Context-Aware Text Classification
- Title(参考訳): サイバーセキュリティのための大規模言語モデルの活用:ロバストとコンテキスト対応テキスト分類によるSMSスパム検出の強化
- Authors: Mohsen Ahmadi, Matin Khajavi, Abbas Varmaghani, Ali Ala, Kasra Danesh, Danial Javaheri,
- Abstract要約: 本研究では,SMSデータ中のスパムメッセージの検出における特徴抽出手法と分類アルゴリズムの有効性を評価する。
TF-IDFは、Naive Bayes、Support Vector Machines、Deep Neural Networksと組み合わせると、最も信頼性の高いパフォーマンスを提供する。
- 参考スコア(独自算出の注目度): 4.281580125566764
- License:
- Abstract: This study evaluates the effectiveness of different feature extraction techniques and classification algorithms in detecting spam messages within SMS data. We analyzed six classifiers Naive Bayes, K-Nearest Neighbors, Support Vector Machines, Linear Discriminant Analysis, Decision Trees, and Deep Neural Networks using two feature extraction methods: bag-of-words and TF-IDF. The primary objective was to determine the most effective classifier-feature combination for SMS spam detection. Our research offers two main contributions: first, by systematically examining various classifier and feature extraction pairings, and second, by empirically evaluating their ability to distinguish spam messages. Our results demonstrate that the TF-IDF method consistently outperforms the bag-of-words approach across all six classifiers. Specifically, Naive Bayes with TF-IDF achieved the highest accuracy of 96.2%, with a precision of 0.976 for non-spam and 0.754 for spam messages. Similarly, Support Vector Machines with TF-IDF exhibited an accuracy of 94.5%, with a precision of 0.926 for non-spam and 0.891 for spam. Deep Neural Networks using TF-IDF yielded an accuracy of 91.0%, with a recall of 0.991 for non-spam and 0.415 for spam messages. In contrast, classifiers such as K-Nearest Neighbors, Linear Discriminant Analysis, and Decision Trees showed weaker performance, regardless of the feature extraction method employed. Furthermore, we observed substantial variability in classifier effectiveness depending on the chosen feature extraction technique. Our findings emphasize the significance of feature selection in SMS spam detection and suggest that TF-IDF, when paired with Naive Bayes, Support Vector Machines, or Deep Neural Networks, provides the most reliable performance. These insights provide a foundation for improving SMS spam detection through optimized feature extraction and classification methods.
- Abstract(参考訳): 本研究では,SMSデータ中のスパムメッセージの検出における特徴抽出手法と分類アルゴリズムの有効性を評価する。
そこで我々は,baba-of-wordsとTF-IDFという2つの特徴抽出手法を用いて,Naive Bayes,K-Nearest Neighbors,Support Vector Machines,Linear Discriminant Analysis,Decision Trees,Deep Neural Networksの6つの分類器を解析した。
主な目的は、SMSスパム検出において最も効果的な分類器と機能の組み合わせを決定することである。
本研究は,まず,各種分類器と特徴抽出ペアリングを体系的に検討し,第2にスパムメッセージを識別する能力を実証的に評価することによって,主な貢献を行う。
その結果,TF-IDF法は6つの分類器にまたがって一貫した手法よりも優れていた。
具体的には、TF-IDFのネイブベイズは96.2%の精度で、ノンスパムでは0.976、スパムメッセージでは0.754の精度を達成した。
同様に、TF-IDFのSupport Vector Machinesは94.5%の精度を示し、ノンスパムでは0.926、スパムでは0.891の精度を示した。
TF-IDFを用いたディープニューラルネットワークの精度は91.0%で、ノンスパムは0.991、スパムメッセージは0.415だった。
一方,K-Nearest Neighbors,Linear Discriminant Analysis,Decision Treesなどの分類器では,特徴抽出法によらず,性能が低かった。
さらに,選択した特徴抽出手法により,分類器の有効性に有意な変動が認められた。
本研究は,SMSスパム検出における特徴選択の重要性を強調し,Naive Bayes,Support Vector Machines,Deep Neural Networksと組み合わせることで,TF-IDFが最も信頼性の高い性能が得られることを示唆する。
これらの知見は、最適化された特徴抽出と分類方法によるSMSスパム検出を改善する基盤を提供する。
関連論文リスト
- A Comparative Study on TF-IDF feature Weighting Method and its Analysis
using Unstructured Dataset [0.5156484100374058]
用語周波数-逆文書周波数(TF-IDF)と自然言語処理(NLP)は、テキスト分類において最もよく用いられる情報検索手法である。
本研究では,非構造化データのテキスト分類における特徴重み付け手法の検討と解析を行った。
提案モデルは、IMDB映画レビューにおけるN-GramsとTF-IDFと、感情分析のためのAmazon Alexaレビューデータセットの2つの特徴を検討した。
論文 参考訳(メタデータ) (2023-08-08T04:27:34Z) - FDINet: Protecting against DNN Model Extraction via Feature Distortion Index [25.69643512837956]
FDINETは、ディープニューラルネットワーク(DNN)モデルの特徴分布を活用する新しい防御メカニズムである。
FDI類似性を利用して、分散抽出攻撃から衝突する敵を識別する。
FDINETは、91%を超える精度で衝突する敵を識別する能力を示している。
論文 参考訳(メタデータ) (2023-06-20T07:14:37Z) - Detecting automatically the layout of clinical documents to enhance the
performances of downstream natural language processing [53.797797404164946]
我々は,臨床用PDF文書を処理し,臨床用テキストのみを抽出するアルゴリズムを設計した。
このアルゴリズムは、PDFを使った最初のテキスト抽出と、続いてボディテキスト、左書き、フッタなどのカテゴリに分類される。
それぞれのセクションのテキストから興味ある医学的概念を抽出し,医療的パフォーマンスを評価した。
論文 参考訳(メタデータ) (2023-05-23T08:38:33Z) - DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability
Curvature [143.5381108333212]
大規模な言語モデルからサンプリングされたテキストは、モデルのログ確率関数の負の曲率領域を占有する傾向にあることを示す。
次に、与えられたLLMから通路が生成されるかどうかを判断するための新しい曲率ベースの基準を定義する。
我々は、モデルサンプル検出のための既存のゼロショット法よりもディテクターGPTの方が識別性が高いことを発見した。
論文 参考訳(メタデータ) (2023-01-26T18:44:06Z) - Android Malware Detection using Feature Ranking of Permissions [0.0]
当社はAndroidのパーミッションを車として使用し、良性アプリとマルウェアアプリを迅速かつ効果的に区別できるようにしています。
解析の結果,本手法は,他の手法よりも精度が高く,Fスコア値も高いことがわかった。
論文 参考訳(メタデータ) (2022-01-20T22:08:20Z) - Deep convolutional forest: a dynamic deep ensemble approach for spam
detection in text [219.15486286590016]
本稿では,スパム検出のための動的深層アンサンブルモデルを提案する。
その結果、このモデルは高い精度、リコール、f1スコア、98.38%の精度を達成した。
論文 参考訳(メタデータ) (2021-10-10T17:19:37Z) - NLRG at SemEval-2021 Task 5: Toxic Spans Detection Leveraging BERT-based
Token Classification and Span Prediction Techniques [0.6850683267295249]
本稿では,トークン分類やスパン予測手法の簡易バージョンについて検討する。
どちらのアプローチにもBERT、RoBERTa、SpanBERTといったBERTベースのモデルを使用します。
そこで本研究では,Multi-Span,Span+Token,LSTM-CRFの4つのハイブリッド手法と,ユニオン/インターセクションを用いた予測オフセットの組み合わせについて検討する。
論文 参考訳(メタデータ) (2021-02-24T12:30:09Z) - Detection of Adversarial Supports in Few-shot Classifiers Using Feature
Preserving Autoencoders and Self-Similarity [89.26308254637702]
敵対的なサポートセットを強調するための検出戦略を提案する。
我々は,特徴保存型オートエンコーダフィルタリングと,この検出を行うサポートセットの自己相似性の概念を利用する。
提案手法は攻撃非依存であり, 最善の知識まで, 数発分類器の検出を探索する最初の方法である。
論文 参考訳(メタデータ) (2020-12-09T14:13:41Z) - Discriminative Nearest Neighbor Few-Shot Intent Detection by
Transferring Natural Language Inference [150.07326223077405]
データ不足を緩和するためには、ほとんどショットラーニングが注目を集めている。
深部自己注意を伴う識別的近傍分類を提示する。
自然言語推論モデル(NLI)を変換することで識別能力を高めることを提案する。
論文 参考訳(メタデータ) (2020-10-25T00:39:32Z) - Bayesian Optimization with Machine Learning Algorithms Towards Anomaly
Detection [66.05992706105224]
本稿では,ベイズ最適化手法を用いた効果的な異常検出フレームワークを提案する。
ISCX 2012データセットを用いて検討したアルゴリズムの性能を評価する。
実験結果から, 精度, 精度, 低コストアラームレート, リコールの観点から, 提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-08-05T19:29:35Z) - Pulsars Detection by Machine Learning with Very Few Features [5.598468451834693]
パルサー検出のための機械学習(ML)手法に基づくスキームの検討は活発なトピックである。
検出性能を向上させるためには,MLモデルへの入力特徴を具体的に検討する必要がある。
論文 参考訳(メタデータ) (2020-02-20T01:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。