論文の概要: Paladin: Defending LLM-enabled Phishing Emails with a New Trigger-Tag Paradigm
- arxiv url: http://arxiv.org/abs/2509.07287v1
- Date: Mon, 08 Sep 2025 23:44:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.147281
- Title: Paladin: Defending LLM-enabled Phishing Emails with a New Trigger-Tag Paradigm
- Title(参考訳): パラディン:新たなトリガータグパラダイムでLLM対応フィッシングメールを保存
- Authors: Yan Pang, Wenlong Meng, Xiaojing Liao, Tianhao Wang,
- Abstract要約: 悪意のあるユーザは、スペルミスなどの簡単に検出可能な機能のないフィッシングメールを合成することができる。
このようなモデルはトピック固有のフィッシングメッセージを生成し、ターゲットドメインにコンテンツを調整することができる。
既存の意味レベル検出アプローチのほとんどは、それらを確実に識別するのに苦労している。
本稿では,様々な挿入戦略を用いてトリガータグ関連をバニラLSMに埋め込むパラジンを提案する。
計測されたLLMがフィッシングに関連するコンテンツを生成すると、検出可能なタグが自動的に含まれ、識別が容易になる。
- 参考スコア(独自算出の注目度): 26.399199616508596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of large language models, the potential threat of their malicious use, particularly in generating phishing content, is becoming increasingly prevalent. Leveraging the capabilities of LLMs, malicious users can synthesize phishing emails that are free from spelling mistakes and other easily detectable features. Furthermore, such models can generate topic-specific phishing messages, tailoring content to the target domain and increasing the likelihood of success. Detecting such content remains a significant challenge, as LLM-generated phishing emails often lack clear or distinguishable linguistic features. As a result, most existing semantic-level detection approaches struggle to identify them reliably. While certain LLM-based detection methods have shown promise, they suffer from high computational costs and are constrained by the performance of the underlying language model, making them impractical for large-scale deployment. In this work, we aim to address this issue. We propose Paladin, which embeds trigger-tag associations into vanilla LLM using various insertion strategies, creating them into instrumented LLMs. When an instrumented LLM generates content related to phishing, it will automatically include detectable tags, enabling easier identification. Based on the design on implicit and explicit triggers and tags, we consider four distinct scenarios in our work. We evaluate our method from three key perspectives: stealthiness, effectiveness, and robustness, and compare it with existing baseline methods. Experimental results show that our method outperforms the baselines, achieving over 90% detection accuracy across all scenarios.
- Abstract(参考訳): 大規模言語モデルの急速な発展に伴い、悪意のある使用、特にフィッシングコンテンツの生成に対する潜在的な脅威がますます広まっている。
LLMの機能を活用することで、悪意のあるユーザは、ミススペルやその他の簡単に検出可能な機能のないフィッシングメールを合成できる。
さらに、そのようなモデルはトピック固有のフィッシングメッセージを生成し、ターゲットドメインにコンテンツを調整し、成功の可能性を高めることができる。
LLMが生成したフィッシングメールは、明確で区別しやすい言語的特徴を欠いていることが多いため、そのようなコンテンツの検出は依然として重大な課題である。
結果として、既存の意味レベル検出アプローチのほとんどは、それらを確実に識別するのに苦労している。
ある種のLLMに基づく検出手法は将来性を示しているが、高い計算コストに悩まされ、基礎となる言語モデルの性能に制約されているため、大規模展開には実用的ではない。
本研究は,この問題に対処することを目的としている。
本稿では,様々な挿入戦略を用いてトリガータグ関連をバニラLLMに埋め込んだPaldinを提案する。
計測されたLLMがフィッシングに関連するコンテンツを生成すると、検出可能なタグが自動的に含まれ、識別が容易になる。
暗黙的かつ明示的なトリガとタグの設計に基づいて、作業では4つの異なるシナリオを検討します。
本手法をステルス性,有効性,堅牢性という3つの重要な視点から評価し,既存のベースライン法と比較した。
実験の結果,本手法はすべてのシナリオにおいて90%以上の検出精度を達成し,ベースラインよりも優れていた。
関連論文リスト
- Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Prompted Contextual Vectors for Spear-Phishing Detection [41.26408609344205]
スパイアフィッシング攻撃は重大なセキュリティ上の課題を示す。
本稿では,新しい文書ベクトル化手法に基づく検出手法を提案する。
提案手法は, LLM生成したスピアフィッシングメールの識別において, 91%のF1スコアを達成する。
論文 参考訳(メタデータ) (2024-02-13T09:12:55Z) - A Robust Semantics-based Watermark for Large Language Model against Paraphrasing [50.84892876636013]
大規模言語モデル(LLM)は、様々な自然言語処理において優れた能力を示している。
LLMは不適切にも違法にも使用できるという懸念がある。
本稿ではセマンティクスに基づく透かしフレームワークSemaMarkを提案する。
論文 参考訳(メタデータ) (2023-11-15T06:19:02Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Spear Phishing With Large Language Models [3.2634122554914002]
本研究では,スピアフィッシングに大規模言語モデル(LLM)を用いる方法について検討した。
私はOpenAIのGPT-3.5とGPT-4モデルを使用して、600人以上の英国議会議員に対して独自のフィッシングメッセージを作成します。
私の発見は、これらのメッセージが現実的であるだけでなく、コスト効率も高いという証拠を提供しています。
論文 参考訳(メタデータ) (2023-05-11T16:55:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。