論文の概要: A Synthetic Conversational Smishing Dataset for Social Engineering Detection
- arxiv url: http://arxiv.org/abs/2604.11752v1
- Date: Mon, 13 Apr 2026 17:26:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.716568
- Title: A Synthetic Conversational Smishing Dataset for Social Engineering Detection
- Title(参考訳): ソーシャルエンジニアリング検出のための合成会話スマイシングデータセット
- Authors: Carl Lochstampfor, Ayan Roy,
- Abstract要約: 本稿では,現実的な会話スマイシング攻撃をエミュレートするために,3,201個のラベル付きマルチラウンド会話のデータセットを提案する。
その結果、TF-IDFベースのモデルは、エンジニアリング機能のみを使用したモデルよりも一貫して優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Smishing (SMS phishing) has become a serious cybersecurity threat, especially for elderly and cyber-unaware individuals, causing financial loss and undermining user trust. Although prior work has focused on detecting smishing at the level of individual messages, real-world attackers often rely on multi-stage social engineering, gradually manipulating victims through extended conversations before attempting to steal sensitive information. Despite the existence of several datasets for single-message smishing detection, datasets capturing conversational smishing remain largely unavailable, limiting research on multi-turn attack detection. To address this gap, this paper presents a synthetically generated dataset of 3,201 labeled multi-round conversations designed to emulate realistic conversational smishing attacks. The dataset reflects diverse attacker strategies and victim responses across multiple stages of interaction. Using this dataset, we establish baseline performance by evaluating eight models, including traditional machine learning approaches (Logistic Regression, Random Forest, Linear SVM, and XGBoost) and transformer-based architectures (DistilBERT and Longformer), with both engineered conversational features and TF-IDF text representations. Experimental results show that TF-IDF-based models consistently outperform those using engineered features alone. The best-performing model, XGBoost with TF-IDF features, achieves 72.5% accuracy and a macro F1 score of 0.691, surpassing both transformer models. Our analysis suggests that transformer performance is limited primarily by input-length constraints and the relatively small size of the training data. Overall, the results highlight the value of lexical signals in conversational smishing detection and demonstrate the usefulness of the proposed dataset for advancing research on defenses against multi-turn social engineering attacks.
- Abstract(参考訳): スマイッシング(SMSフィッシング)は、特に高齢者や無知の個人にとって深刻なサイバーセキュリティの脅威となり、財政的損失を招き、ユーザーの信頼を損なう。
これまでの作業では、個々のメッセージのレベルでのスマイシングの検出に重点を置いていたが、現実の攻撃者は多段階のソーシャルエンジニアリングに頼り、機密情報を盗もうとする前の会話を通じて徐々に被害者を操作する。
シングルメッセージスマイシング検出のためのデータセットはいくつか存在するが、会話スマイシングをキャプチャするデータセットはほとんど利用できないため、マルチターン攻撃検出の研究は制限されている。
このギャップに対処するため,本研究では,現実的な会話スマイシング攻撃をエミュレートするために,3,201個のラベル付き多ラウンド会話を合成的に生成したデータセットを提案する。
このデータセットは、多様な攻撃戦略と、対話の複数の段階にわたる被害者の反応を反映している。
このデータセットを用いて、従来の機械学習手法(ロジスティック回帰、ランダムフォレスト、線形SVM、XGBoost)とトランスフォーマーベースのアーキテクチャ(DistilBERT、Longformer)を含む8つのモデルを評価することにより、ベースライン性能を確立する。
実験結果から,TF-IDFに基づくモデルは,工学的特徴のみを用いたモデルよりも一貫して優れていた。
TF-IDF機能を備えた最高のパフォーマンスモデルであるXGBoostは72.5%の精度を実現し、マクロF1スコアは0.691であり、両方のトランスフォーマーモデルを上回っている。
解析の結果,トランスフォーマーの性能は,入力長制約とトレーニングデータの比較的小さなサイズによって制限されていることが示唆された。
全体として,会話スマイシング検出における語彙信号の価値を強調し,マルチターン社会工学攻撃に対する防御研究を進めるためのデータセットの有用性を示した。
関連論文リスト
- Unknown Attack Detection in IoT Networks using Large Language Models: A Robust, Data-efficient Approach [5.0363184281919215]
既存の機械学習アプローチは、大きなラベル付きデータセット、ペイロードインスペクション、クローズドセットの分類に依存している。
我々は,未知の攻撃検出のためのトランスフォーマーベース言語モデルによって強化された,堅牢でデータ効率のよいSiamXBERTを提案する。
我々は、SiamXBERTが、内部データセットとクロスデータセット設定の両方で、最先端のベースラインを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2026-02-12T17:15:39Z) - Agent4FaceForgery: Multi-Agent LLM Framework for Realistic Face Forgery Detection [108.5042835056188]
この作業では,2つの基本的な問題に対処するため,Agent4FaceForgeryを導入している。
人間の偽造の多様な意図と反復的なプロセスを捉える方法。
ソーシャルメディアの偽造に付随する複雑な、しばしば敵対的な、テキストと画像のインタラクションをモデル化する方法。
論文 参考訳(メタデータ) (2025-09-16T01:05:01Z) - Searching for Privacy Risks in LLM Agents via Simulation [61.229785851581504]
本稿では,プライバシクリティカルなエージェントインタラクションのシミュレーションを通じて,攻撃と防御戦略の改善を交互に行う検索ベースのフレームワークを提案する。
攻撃戦略は、直接の要求から、不正行為や同意偽造といった高度な戦術へとエスカレートする。
発見された攻撃と防御は、さまざまなシナリオやバックボーンモデルにまたがって伝達され、プライバシーに配慮したエージェントを構築するための強力な実用性を示している。
論文 参考訳(メタデータ) (2025-08-14T17:49:09Z) - Certifying Language Model Robustness with Fuzzed Randomized Smoothing: An Efficient Defense Against Backdoor Attacks [21.930305838969133]
textbfFuzzed textbfRandomized textbfFRS (textbfFRS)を導入した。
我々の理論解析は、FRSが既存の手法と比較して広く証明されたロバストネス半径を達成できることを実証している。
論文 参考訳(メタデータ) (2025-02-09T12:03:59Z) - Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - Phishing Website Detection through Multi-Model Analysis of HTML Content [0.0]
本研究では,HTMLコンテンツに着目した高度な検出モデルを導入することにより,フィッシングのプレス問題に対処する。
提案手法は、構造化表データのための特殊多層パーセプトロン(MLP)モデルと、テキストの特徴を解析するための2つの事前学習自然言語処理(NLP)モデルを統合する。
2つのNLPと1つのモデルであるMultiText-LPの融合により、96.80 F1スコアと97.18精度スコアが得られた。
論文 参考訳(メタデータ) (2024-01-09T21:08:13Z) - LogShield: A Transformer-based APT Detection System Leveraging
Self-Attention [2.1256044139613772]
本稿では,変圧器における自己注意力を利用したAPT攻撃パターンの検出を目的としたフレームワークであるLogShieldを提案する。
カスタマイズした埋め込みレイヤを組み込んで、前兆グラフから派生したイベントシーケンスのコンテキストを効果的にキャプチャします。
LSTMモデルではF1スコアが96%,94%を上回っ,F1スコアが98%,95%であった。
論文 参考訳(メタデータ) (2023-11-09T20:43:15Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。