論文の概要: X-MAP: eXplainable Misclassification Analysis and Profiling for Spam and Phishing Detection
- arxiv url: http://arxiv.org/abs/2602.15298v1
- Date: Tue, 17 Feb 2026 01:46:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:17.955534
- Title: X-MAP: eXplainable Misclassification Analysis and Profiling for Spam and Phishing Detection
- Title(参考訳): X-MAP:eXplainable Misclassification Analysis and Profiling for Spam and Phishing Detection
- Authors: Qi Zhang, Dian Chen, Lance M. Kaplan, Audun Jøsang, Dong Hyun Jeong, Feng Chen, Jin-Hee Cho,
- Abstract要約: 本稿では,eXplainable Misclassification Analysis and Profilling frameworkであるX-MAPを提案する。
X-MAPは、確実に分類されたスパム/フィッシングと正当なメッセージのための解釈可能なトピックプロファイルを構築する。
検出器として、X-MAP は最大 0.98 AUROC を達成し、正の予測で 95% TRR から 0.089 に誤射率を下げる。
- 参考スコア(独自算出の注目度): 16.604623864453043
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Misclassifications in spam and phishing detection are very harmful, as false negatives expose users to attacks while false positives degrade trust. Existing uncertainty-based detectors can flag potential errors, but possibly be deceived and offer limited interpretability. This paper presents X-MAP, an eXplainable Misclassification Analysis and Profilling framework that reveals topic-level semantic patterns behind model failures. X-MAP combines SHAP-based feature attributions with non-negative matrix factorization to build interpretable topic profiles for reliably classified spam/phishing and legitimate messages, and measures each message's deviation from these profiles using Jensen-Shannon divergence. Experiments on SMS and phishing datasets show that misclassified messages exhibit at least two times larger divergence than correctly classified ones. As a detector, X-MAP achieves up to 0.98 AUROC and lowers the false-rejection rate at 95% TRR to 0.089 on positive predictions. When used as a repair layer on base detectors, it recovers up to 97% of falsely rejected correct predictions with moderate leakage. These results demonstrate X-MAP's effectiveness and interpretability for improving spam and phishing detection.
- Abstract(参考訳): スパムやフィッシング検出の誤分類は非常に有害であり、偽陰性はユーザを攻撃にさらし、偽陽性は信頼を低下させる。
既存の不確実性に基づく検出器は潜在的なエラーを警告することができるが、騙され、限定的な解釈性を提供する可能性がある。
本稿では,eXplainable Misclassification Analysis and ProfillingフレームワークであるX-MAPについて述べる。
X-MAPはSHAPベースの特徴属性と非負の行列因数分解を組み合わせて、確実に分類されたスパム/フィッシングと正当なメッセージのための解釈可能なトピックプロファイルを構築し、ジェンセン=シャノンの発散を用いて各メッセージの偏差を測定する。
SMSとフィッシングデータセットの実験では、誤分類されたメッセージは、正しく分類されたメッセージよりも少なくとも2倍のばらつきを示す。
検出器として、X-MAP は最大 0.98 AUROC を達成し、正の予測で 95% TRR から 0.089 に誤射率を下げる。
ベース検出器の修復層として使用されると、適度な漏れを伴う誤認された正確な予測の97%を回復する。
これらの結果は,スパム検出とフィッシング検出の改善にX-MAPの有効性と解釈性を示した。
関連論文リスト
- Robust ML-based Detection of Conventional, LLM-Generated, and Adversarial Phishing Emails Using Advanced Text Preprocessing [3.3166006294048427]
テキスト前処理パイプラインを拡張したロバストなフィッシングメール検出システムを提案する。
提案手法は,広く採用されている自然言語処理(NLP)の特徴抽出技術と機械学習アルゴリズムを統合する。
フィッシングと正規のEメールの両方からなる公開データセット上で、我々のモデルを評価し、検出精度94.26%、F1スコア84.39%を達成した。
論文 参考訳(メタデータ) (2025-10-13T20:34:19Z) - DataSentinel: A Game-Theoretic Detection of Prompt Injection Attacks [87.66245688589977]
LLM統合されたアプリケーションとエージェントは、インジェクション攻撃に弱い。
検出方法は、入力が注入プロンプトによって汚染されているかどうかを判定することを目的とする。
本研究では,迅速なインジェクション攻撃を検出するゲーム理論手法であるDataSentinelを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:26:21Z) - Debate-Driven Multi-Agent LLMs for Phishing Email Detection [0.0]
エージェント間の偽りの議論をシミュレートしてフィッシングメールを検出する多エージェント大規模言語モデル(LLM)を提案する。
提案手法では,2つの LLM エージェントを用いて,最終判断を代弁する判断エージェントを用いて,分類課題の論拠を提示する。
結果は、議論の構造自体が、余分なプロンプト戦略を伴わずに正確な決定を下すのに十分であることを示している。
論文 参考訳(メタデータ) (2025-03-27T23:18:14Z) - Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。
混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。
UE識別のための反復フィルタリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T13:26:13Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability
Curvature [143.5381108333212]
大規模な言語モデルからサンプリングされたテキストは、モデルのログ確率関数の負の曲率領域を占有する傾向にあることを示す。
次に、与えられたLLMから通路が生成されるかどうかを判断するための新しい曲率ベースの基準を定義する。
我々は、モデルサンプル検出のための既存のゼロショット法よりもディテクターGPTの方が識別性が高いことを発見した。
論文 参考訳(メタデータ) (2023-01-26T18:44:06Z) - Multi-SpacePhish: Extending the Evasion-space of Adversarial Attacks
against Phishing Website Detectors using Machine Learning [22.304132275659924]
本稿では,ML-PWDを騙すために対向的摂動を導入する「回避空間」を定式化する。
そこで我々は,より安価なML-PWDに対する回避攻撃を記述した現実的な脅威モデルを提案する。
論文 参考訳(メタデータ) (2022-10-24T23:45:09Z) - Profiler: Profile-Based Model to Detect Phishing Emails [15.109679047753355]
本稿では,攻撃者がメールに適応して検出を回避できる可能性を低減するために,メールの多次元リスク評価を提案する。
本研究では,(1)脅威レベル,(2)認知的操作,(3)電子メールタイプを分析する3つのモデルを含むリスクアセスメントフレームワークを開発する。
プロファイラは、MLアプローチと併用して、誤分類を減らしたり、トレーニング段階で大規模な電子メールデータセットのラベル付けとして使用することができる。
論文 参考訳(メタデータ) (2022-08-18T10:01:55Z) - RAIDER: Reinforcement-aided Spear Phishing Detector [13.341666826984554]
Spear Phishingは、世界中の企業や個人が直面している有害なサイバー攻撃だ。
MLベースのソリューションはゼロデイ攻撃に悩まされる可能性がある。
RAIDER: Reinforcement AIded Spear Phishing DEtectoRを提案します。
論文 参考訳(メタデータ) (2021-05-17T02:42:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。