論文の概要: Paladin: Defending LLM-enabled Phishing Emails with a New Trigger-Tag Paradigm
- arxiv url: http://arxiv.org/abs/2509.07287v1
- Date: Mon, 08 Sep 2025 23:44:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.147281
- Title: Paladin: Defending LLM-enabled Phishing Emails with a New Trigger-Tag Paradigm
- Title(参考訳): パラディン:新たなトリガータグパラダイムでLLM対応フィッシングメールを保存
- Authors: Yan Pang, Wenlong Meng, Xiaojing Liao, Tianhao Wang,
- Abstract要約: 悪意のあるユーザは、スペルミスなどの簡単に検出可能な機能のないフィッシングメールを合成することができる。
このようなモデルはトピック固有のフィッシングメッセージを生成し、ターゲットドメインにコンテンツを調整することができる。
既存の意味レベル検出アプローチのほとんどは、それらを確実に識別するのに苦労している。
本稿では,様々な挿入戦略を用いてトリガータグ関連をバニラLSMに埋め込むパラジンを提案する。
計測されたLLMがフィッシングに関連するコンテンツを生成すると、検出可能なタグが自動的に含まれ、識別が容易になる。
- 参考スコア(独自算出の注目度): 26.399199616508596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of large language models, the potential threat of their malicious use, particularly in generating phishing content, is becoming increasingly prevalent. Leveraging the capabilities of LLMs, malicious users can synthesize phishing emails that are free from spelling mistakes and other easily detectable features. Furthermore, such models can generate topic-specific phishing messages, tailoring content to the target domain and increasing the likelihood of success. Detecting such content remains a significant challenge, as LLM-generated phishing emails often lack clear or distinguishable linguistic features. As a result, most existing semantic-level detection approaches struggle to identify them reliably. While certain LLM-based detection methods have shown promise, they suffer from high computational costs and are constrained by the performance of the underlying language model, making them impractical for large-scale deployment. In this work, we aim to address this issue. We propose Paladin, which embeds trigger-tag associations into vanilla LLM using various insertion strategies, creating them into instrumented LLMs. When an instrumented LLM generates content related to phishing, it will automatically include detectable tags, enabling easier identification. Based on the design on implicit and explicit triggers and tags, we consider four distinct scenarios in our work. We evaluate our method from three key perspectives: stealthiness, effectiveness, and robustness, and compare it with existing baseline methods. Experimental results show that our method outperforms the baselines, achieving over 90% detection accuracy across all scenarios.
- Abstract(参考訳): 大規模言語モデルの急速な発展に伴い、悪意のある使用、特にフィッシングコンテンツの生成に対する潜在的な脅威がますます広まっている。
LLMの機能を活用することで、悪意のあるユーザは、ミススペルやその他の簡単に検出可能な機能のないフィッシングメールを合成できる。
さらに、そのようなモデルはトピック固有のフィッシングメッセージを生成し、ターゲットドメインにコンテンツを調整し、成功の可能性を高めることができる。
LLMが生成したフィッシングメールは、明確で区別しやすい言語的特徴を欠いていることが多いため、そのようなコンテンツの検出は依然として重大な課題である。
結果として、既存の意味レベル検出アプローチのほとんどは、それらを確実に識別するのに苦労している。
ある種のLLMに基づく検出手法は将来性を示しているが、高い計算コストに悩まされ、基礎となる言語モデルの性能に制約されているため、大規模展開には実用的ではない。
本研究は,この問題に対処することを目的としている。
本稿では,様々な挿入戦略を用いてトリガータグ関連をバニラLLMに埋め込んだPaldinを提案する。
計測されたLLMがフィッシングに関連するコンテンツを生成すると、検出可能なタグが自動的に含まれ、識別が容易になる。
暗黙的かつ明示的なトリガとタグの設計に基づいて、作業では4つの異なるシナリオを検討します。
本手法をステルス性,有効性,堅牢性という3つの重要な視点から評価し,既存のベースライン法と比較した。
実験の結果,本手法はすべてのシナリオにおいて90%以上の検出精度を達成し,ベースラインよりも優れていた。
関連論文リスト
- Constructing and Benchmarking: a Labeled Email Dataset for Text-Based Phishing and Spam Detection Framework [0.37687375904925485]
本研究では、フィッシング、スパム、正統なメッセージを含む包括的な電子メールデータセットを提案する。
各メールには、そのカテゴリ、感情的な魅力、権威、そして根底にあるモチベーションが注釈付けされている。
その結果、強いフィッシング検出能力が強調される一方で、スパムと正当な電子メールを区別する上での永続的な課題が浮かび上がっている。
論文 参考訳(メタデータ) (2025-11-26T14:40:06Z) - Robust ML-based Detection of Conventional, LLM-Generated, and Adversarial Phishing Emails Using Advanced Text Preprocessing [3.3166006294048427]
テキスト前処理パイプラインを拡張したロバストなフィッシングメール検出システムを提案する。
提案手法は,広く採用されている自然言語処理(NLP)の特徴抽出技術と機械学習アルゴリズムを統合する。
フィッシングと正規のEメールの両方からなる公開データセット上で、我々のモデルを評価し、検出精度94.26%、F1スコア84.39%を達成した。
論文 参考訳(メタデータ) (2025-10-13T20:34:19Z) - RepreGuard: Detecting LLM-Generated Text by Revealing Hidden Representation Patterns [50.401907401444404]
大規模言語モデル(LLM)は、誤用を防止し、信頼できるAIシステムを構築するために不可欠である。
本稿では,統計量に基づく効率的な検出手法であるRepreGuardを提案する。
実験結果から、RepreGuardは、平均94.92%のAUROCですべてのベースラインでID(in-distriion)とOOD(OOD)の両方のシナリオでパフォーマンスが向上していることが示された。
論文 参考訳(メタデータ) (2025-08-18T17:59:15Z) - Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Reasoning [58.57194301645823]
大規模言語モデル(LLM)は、現実のパーソナライズされたアプリケーションにますます統合されている。
RAGで使用される知識基盤の貴重かつしばしばプロプライエタリな性質は、敵による不正使用のリスクをもたらす。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、一般的に毒やバックドア攻撃を含む。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z) - Large Language Models as Carriers of Hidden Messages [0.0]
単純な微調整は、隠されたテキストを大きな言語モデル(LLM)に埋め込むことができる。
我々の研究は、隠れたテキストを微調整で埋め込むことが、膨大な数のトリガーによって安全であるように見えるが、抽出に弱いことを実証している。
我々は,LLMの語彙からトークンを反復的に供給し,高いトークン確率を持つシーケンスを明らかにするunconditional Token Forcing (UTF)と呼ばれる抽出攻撃を導入し,隠れテキスト候補を示す。
論文 参考訳(メタデータ) (2024-06-04T16:49:06Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Prompted Contextual Vectors for Spear-Phishing Detection [41.26408609344205]
スパイアフィッシング攻撃は重大なセキュリティ上の課題を示す。
本稿では,新しい文書ベクトル化手法に基づく検出手法を提案する。
提案手法は, LLM生成したスピアフィッシングメールの識別において, 91%のF1スコアを達成する。
論文 参考訳(メタデータ) (2024-02-13T09:12:55Z) - A Robust Semantics-based Watermark for Large Language Model against Paraphrasing [50.84892876636013]
大規模言語モデル(LLM)は、様々な自然言語処理において優れた能力を示している。
LLMは不適切にも違法にも使用できるという懸念がある。
本稿ではセマンティクスに基づく透かしフレームワークSemaMarkを提案する。
論文 参考訳(メタデータ) (2023-11-15T06:19:02Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Detecting Phishing Sites Using ChatGPT [2.3999111269325266]
本稿では,大規模言語モデル(LLM)を用いてフィッシングサイトを検出するChatPhishDetectorという新しいシステムを提案する。
本システムでは,Webクローラを利用してWebサイトから情報を収集し,クローリングデータに基づいてLLMのプロンプトを生成し,LLMが生成した応答から検出結果を取得する。
GPT-4Vを用いた実験結果は、98.7%の精度と99.6%のリコールで優れた性能を示し、他のLLMや既存のシステムよりも優れていた。
論文 参考訳(メタデータ) (2023-06-09T11:30:08Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z) - Spear Phishing With Large Language Models [3.2634122554914002]
本研究では,スピアフィッシングに大規模言語モデル(LLM)を用いる方法について検討した。
私はOpenAIのGPT-3.5とGPT-4モデルを使用して、600人以上の英国議会議員に対して独自のフィッシングメッセージを作成します。
私の発見は、これらのメッセージが現実的であるだけでなく、コスト効率も高いという証拠を提供しています。
論文 参考訳(メタデータ) (2023-05-11T16:55:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。