論文の概要: GCC-Spam: Spam Detection via GAN, Contrastive Learning, and Character Similarity Networks
- arxiv url: http://arxiv.org/abs/2507.14679v1
- Date: Sat, 19 Jul 2025 16:09:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.999912
- Title: GCC-Spam: Spam Detection via GAN, Contrastive Learning, and Character Similarity Networks
- Title(参考訳): GCC-Spam: GANによるスパム検出、コントラスト学習、文字類似性ネットワーク
- Authors: Zixin Xu, Zhijie Wang, Zhiyuan Pan,
- Abstract要約: 本稿では,3つのイノベーションを統合した新しいスパムテキスト検出フレームワークであるGCC-Spamを提案する。
文字類似性ネットワークは、文字難読攻撃に対する正書法と音声の特徴をキャプチャする。
対照的な学習は、スパムと通常のテキスト間の潜在空間距離を最適化することで差別性を高める。
Generative Adversarial Network (GAN)は、データ不足を軽減するために、現実的な擬似スパムサンプルを生成する。
- 参考スコア(独自算出の注目度): 2.184092672461171
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The exponential growth of spam text on the Internet necessitates robust detection mechanisms to mitigate risks such as information leakage and social instability. This work addresses two principal challenges: adversarial strategies employed by spammers and the scarcity of labeled data. We propose a novel spam-text detection framework GCC-Spam, which integrates three core innovations. First, a character similarity network captures orthographic and phonetic features to counter character-obfuscation attacks and furthermore produces sentence embeddings for downstream classification. Second, contrastive learning enhances discriminability by optimizing the latent-space distance between spam and normal texts. Third, a Generative Adversarial Network (GAN) generates realistic pseudo-spam samples to alleviate data scarcity while improving model robustness and classification accuracy. Extensive experiments on real-world datasets demonstrate that our model outperforms baseline approaches, achieving higher detection rates with significantly fewer labeled examples.
- Abstract(参考訳): インターネット上でのスパムテキストの指数的増加は、情報漏洩や社会的不安定といったリスクを軽減するために、堅牢な検出メカニズムを必要とする。
この研究は、スパマーが採用する敵戦略とラベル付きデータの不足という2つの主要な課題に対処する。
本稿では,3つの中核技術を統合した新しいスパムテキスト検出フレームワークGCC-Spamを提案する。
まず、文字類似性ネットワークは、文字難読化攻撃に対する正書法と音声の特徴を捕捉し、さらに下流分類のための文埋め込みを生成する。
第二に、コントラスト学習はスパムと通常のテキスト間の潜時空間距離を最適化することで差別性を高める。
第3に、GAN(Generative Adversarial Network)は、モデルロバスト性と分類精度を改善しながら、データの不足を軽減するために、現実的な擬似スパムサンプルを生成する。
実世界のデータセットに対する大規模な実験により、我々のモデルはベースラインアプローチよりも優れており、ラベル付き例をはるかに少なくして高い検出率を達成することが示される。
関連論文リスト
- Boosting Bot Detection via Heterophily-Aware Representation Learning and Prototype-Guided Cluster Discovery [16.548403922027248]
BotHPはグラフベースのボット検出器を強化するために設計された、生成的なグラフ自己監視学習フレームワークである。
ノードの共通性をキャプチャするためにグラフ対応エンコーダと、ノードの特異性を保存するためにグラフに依存しないエンコーダからなるデュアルエンコーダアーキテクチャを使用する。
グラフベースのボット検出器を一貫して強化し、検出性能を改善し、ラベル依存を緩和し、一般化能力を向上する。
論文 参考訳(メタデータ) (2025-06-01T12:44:53Z) - Hybrid Machine Learning Model for Detecting Bangla Smishing Text Using BERT and Character-Level CNN [0.0]
スマイッシング攻撃は328%増加し、モバイルユーザーにとって大きな脅威となった。
人気は高まっているものの、この問題は依然としてかなり過小評価されている。
本稿では,バングラスミッシングテキストを検出するためのハイブリッド機械学習モデルを提案する。
論文 参考訳(メタデータ) (2025-02-03T16:51:58Z) - SpaLLM-Guard: Pairing SMS Spam Detection Using Open-source and Commercial LLMs [1.3198171962008958]
我々は,SMSスパム検出における大規模言語モデル (LLM) の可能性を評価する。
ゼロショット、少数ショット、微調整、チェーン・オブ・プルーピングのアプローチでパフォーマンスを比較します。
ファインチューニングは最も効果的な戦略として現れ、Mixtralの精度は98.6%、偽陽性と偽陰性率は2%以下である。
論文 参考訳(メタデータ) (2025-01-09T06:00:08Z) - Comprehensive Botnet Detection by Mitigating Adversarial Attacks, Navigating the Subtleties of Perturbation Distances and Fortifying Predictions with Conformal Layers [1.6001193161043425]
ボットネット(Botnet)は、悪意あるアクターによって制御されるコンピュータネットワークで、重要なサイバーセキュリティ上の課題を提示する。
本研究は、機械学習ベースのボットネット検出システムを弱体化させることを目的として、攻撃者が引き起こす高度な敵操作に対処する。
ISCXデータセットとISOTデータセットに基づいてトレーニングされた機械学習とディープラーニングアルゴリズムを活用するフローベース検出アプローチを導入する。
論文 参考訳(メタデータ) (2024-09-01T08:53:21Z) - Detecting, Explaining, and Mitigating Memorization in Diffusion Models [49.438362005962375]
そこで本研究では,テキスト条件予測の大きさを検査することで,暗黙のプロンプトを検出する方法を提案する。
提案手法はサンプリングアルゴリズムを中断することなくシームレスに統合し,第1世代でも高い精度を実現する。
検出戦略に基づいて,個々の単語やトークンの記憶への寄与を示す説明可能なアプローチを提示する。
論文 参考訳(メタデータ) (2024-07-31T16:13:29Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Text generation for dataset augmentation in security classification
tasks [55.70844429868403]
本研究では、複数のセキュリティ関連テキスト分類タスクにおいて、このデータギャップを埋めるための自然言語テキストジェネレータの適用性を評価する。
我々は,GPT-3データ拡張戦略において,既知の正のクラスサンプルに厳しい制約がある状況において,大きなメリットを見出した。
論文 参考訳(メタデータ) (2023-10-22T22:25:14Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - Deep convolutional forest: a dynamic deep ensemble approach for spam
detection in text [219.15486286590016]
本稿では,スパム検出のための動的深層アンサンブルモデルを提案する。
その結果、このモデルは高い精度、リコール、f1スコア、98.38%の精度を達成した。
論文 参考訳(メタデータ) (2021-10-10T17:19:37Z) - Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文 参考訳(メタデータ) (2020-10-01T17:51:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。