論文の概要: User-Centric Phishing Detection: A RAG and LLM-Based Approach
- arxiv url: http://arxiv.org/abs/2601.21261v1
- Date: Thu, 29 Jan 2026 04:42:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.579347
- Title: User-Centric Phishing Detection: A RAG and LLM-Based Approach
- Title(参考訳): ユーザ中心フィッシング検出:RAGとLCMに基づくアプローチ
- Authors: Abrar Hamed Al Barwani, Abdelaziz Amara Korba, Raja Waseem Anwar,
- Abstract要約: 本稿では、大規模言語モデルと検索強化生成(RAG)を統合したパーソナライズされたフィッシング検出フレームワークを提案する。
各メッセージに対して、システムは、ユーザの歴史的な正統なメールのコンパクトなセットを検索することで、ユーザ固有のコンテキストを構築する。
- 参考スコア(独自算出の注目度): 1.0858333811448098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The escalating sophistication of phishing emails necessitates a shift beyond traditional rule-based and conventional machine-learning-based detectors. Although large language models (LLMs) offer strong natural language understanding, using them as standalone classifiers often yields elevated falsepositive (FP) rates, which mislabel legitimate emails as phishing and create significant operational burden. This paper presents a personalized phishing detection framework that integrates LLMs with retrieval-augmented generation (RAG). For each message, the system constructs user-specific context by retrieving a compact set of the user's historical legitimate emails and enriching it with real-time domain and URL reputation from a cyber-threat intelligence platform, then conditions the LLM's decision on this evidence. We evaluate four open-source LLMs (Llama4-Scout, DeepSeek-R1, Mistral-Saba, and Gemma2) on an email dataset collected from public and institutional sources. Results show high performance; for example, Llama4-Scout attains an F1-score of 0.9703 and achieves a 66.7% reduction in FPs with RAG. These findings validate that a RAG-based, user-profiling approach is both feasible and effective for building high-precision, low-friction email security systems that adapt to individual communication patterns.
- Abstract(参考訳): フィッシングメールの高度化は、従来のルールベースおよび従来の機械学習ベースの検知器を超えたシフトを必要とする。
大きな言語モデル(LLM)は、強力な自然言語理解を提供するが、独立した分類子として使用すると、しばしば偽陽性(FP)が上昇する。
本稿では,LLMと検索強化生成(RAG)を統合したパーソナライズされたフィッシング検出フレームワークを提案する。
各メッセージに対して、このシステムは、ユーザの歴史的メールのコンパクトなセットを取得し、それをサイバー脅威情報プラットフォームからリアルタイムドメインとURLの評判に豊かにすることで、ユーザ固有のコンテキストを構築し、その証拠についてLCMの決定を条件とする。
Llama4-Scout, DeepSeek-R1, Mistral-Saba, Gemma2) の4つのオープンソース LLM を, 公開および機関資料から収集した電子メールデータセットを用いて評価した。
例えば、Llama4-Scoutは0.9703のF1スコアを獲得し、RAGによるFPの66.7%の低下を達成する。
これらの結果は、RAGベースのユーザプロファイリングアプローチが、個々の通信パターンに適応する高精度で低フリクションの電子メールセキュリティシステムを構築する上で、実現可能かつ効果的であることを示す。
関連論文リスト
- Robust ML-based Detection of Conventional, LLM-Generated, and Adversarial Phishing Emails Using Advanced Text Preprocessing [3.3166006294048427]
テキスト前処理パイプラインを拡張したロバストなフィッシングメール検出システムを提案する。
提案手法は,広く採用されている自然言語処理(NLP)の特徴抽出技術と機械学習アルゴリズムを統合する。
フィッシングと正規のEメールの両方からなる公開データセット上で、我々のモデルを評価し、検出精度94.26%、F1スコア84.39%を達成した。
論文 参考訳(メタデータ) (2025-10-13T20:34:19Z) - Paladin: Defending LLM-enabled Phishing Emails with a New Trigger-Tag Paradigm [26.399199616508596]
悪意のあるユーザは、スペルミスなどの簡単に検出可能な機能のないフィッシングメールを合成することができる。
このようなモデルはトピック固有のフィッシングメッセージを生成し、ターゲットドメインにコンテンツを調整することができる。
既存の意味レベル検出アプローチのほとんどは、それらを確実に識別するのに苦労している。
本稿では,様々な挿入戦略を用いてトリガータグ関連をバニラLSMに埋め込むパラジンを提案する。
計測されたLLMがフィッシングに関連するコンテンツを生成すると、検出可能なタグが自動的に含まれ、識別が容易になる。
論文 参考訳(メタデータ) (2025-09-08T23:44:00Z) - Evaluating LLM-based Personal Information Extraction and Countermeasures [63.91918057570824]
大規模言語モデル(LLM)に基づく個人情報抽出をベンチマークすることができる。
LLMは攻撃者によって誤用され、個人プロファイルから様々な個人情報を正確に抽出する。
プロンプトインジェクションは強力なLDMベースの攻撃に対して防御し、攻撃をより効果的でない従来の攻撃に還元する。
論文 参考訳(メタデータ) (2024-08-14T04:49:30Z) - Prompted Contextual Vectors for Spear-Phishing Detection [41.26408609344205]
スパイアフィッシング攻撃は重大なセキュリティ上の課題を示す。
本稿では,新しい文書ベクトル化手法に基づく検出手法を提案する。
提案手法は, LLM生成したスピアフィッシングメールの識別において, 91%のF1スコアを達成する。
論文 参考訳(メタデータ) (2024-02-13T09:12:55Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。