論文の概要: Clouding the Mirror: Stealthy Prompt Injection Attacks Targeting LLM-based Phishing Detection
- arxiv url: http://arxiv.org/abs/2602.05484v1
- Date: Thu, 05 Feb 2026 09:44:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.866039
- Title: Clouding the Mirror: Stealthy Prompt Injection Attacks Targeting LLM-based Phishing Detection
- Title(参考訳): 鏡を曇らせる:LSMによるフィッシング検出を狙うステルス・プロンプト・インジェクション・アタック
- Authors: Takashi Koide, Hiroki Nakano, Daiki Chiba,
- Abstract要約: 大規模言語モデル(LLM)はインジェクション(PI)に対して脆弱である
本稿では,マルチモーダルLCMによるフィッシング検出に対するPIの総合評価について述べる。
InjectDefuserは、プロンプト硬化、許容リストに基づく検索強化、出力検証を組み合わせた防衛フレームワークである。
- 参考スコア(独自算出の注目度): 0.7391823486666542
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Phishing sites continue to grow in volume and sophistication. Recent work leverages large language models (LLMs) to analyze URLs, HTML, and rendered content to decide whether a website is a phishing site. While these approaches are promising, LLMs are inherently vulnerable to prompt injection (PI). Because attackers can fully control various elements of phishing sites, this creates the potential for PI that exploits the perceptual asymmetry between LLMs and humans: instructions imperceptible to end users can still be parsed by the LLM and can stealthily manipulate its judgment. The specific risks of PI in phishing detection and effective mitigation strategies remain largely unexplored. This paper presents the first comprehensive evaluation of PI against multimodal LLM-based phishing detection. We introduce a two-dimensional taxonomy, defined by Attack Techniques and Attack Surfaces, that captures realistic PI strategies. Using this taxonomy, we implement diverse attacks and empirically study several representative LLM-based detection systems. The results show that phishing detection with state-of-the-art models such as GPT-5 remains vulnerable to PI. We then propose InjectDefuser, a defense framework that combines prompt hardening, allowlist-based retrieval augmentation, and output validation. Across multiple models, InjectDefuser significantly reduces attack success rates. Our findings clarify the PI risk landscape and offer practical defenses that improve the reliability of next-generation phishing countermeasures.
- Abstract(参考訳): フィッシングサイトは、容積と高度化が続いている。
最近の研究は、大規模な言語モデル(LLM)を活用して、URL、HTML、レンダリングされたコンテンツを分析し、Webサイトがフィッシングサイトかどうかを決定する。
これらのアプローチは有望であるが、LSMは本質的にインジェクション(PI)に対して脆弱である。
攻撃者はフィッシングサイトの様々な要素を完全に制御できるため、これはLLMと人間の間の知覚的非対称性を利用するPIの可能性を生み出す。
フィッシング検出および効果的な緩和戦略におけるPIの具体的なリスクはほとんど未解明のままである。
本稿では,マルチモーダルLCMによるフィッシング検出に対するPIの総合評価について述べる。
本稿では,現実的なPI戦略を捉えた2次元分類法を提案する。
この分類法を用いて,多種多様な攻撃を実行し,いくつかの代表的なLSM検出システムについて実証研究を行った。
GPT-5のような最先端モデルによるフィッシング検出はPIに弱いままである。
次に、プロンプト硬化、許容リストに基づく検索拡張、出力検証を組み合わせたディフェンスフレームワークInjectDefuserを提案する。
複数のモデルにまたがって、InjectDefuserは攻撃成功率を大幅に削減する。
本研究は,PIリスクランドスケープを明らかにし,次世代フィッシング対策の信頼性を高めるための実用的な防御策を提供するものである。
関連論文リスト
- The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - SoK: Large Language Model-Generated Textual Phishing Campaigns End-to-End Analysis of Generation, Characteristics, and Detection [3.7549350220109274]
大規模言語モデル(LLM)は、数分で大規模なPhishing-as-a-Service'攻撃を可能にする。
LLMによるフィッシング攻撃の研究が増えているにもかかわらず、フィッシング攻撃のライフサイクルに関する体系的な研究は依然として乏しい。
我々は,LLM生成フィッシングにおける知識の体系化(SoK)を行い,生成技術,攻撃特徴,緩和戦略にまたがるエンド・ツー・エンド分析を行う。
論文 参考訳(メタデータ) (2025-08-29T09:39:46Z) - MultiPhishGuard: An LLM-based Multi-Agent System for Phishing Email Detection [3.187381965457262]
MultiPhishGuardは動的マルチエージェント検出システムである。
本フレームワークでは, 政策最適化強化学習アルゴリズムを用いて, 自動決定重み付けを行う5つの協調エージェントを用いる。
実験により、MultiPhishGuardは偽陽性(2.73%)と偽陰性率(0.20%)で高い精度(97.89%)を達成することが示された。
論文 参考訳(メタデータ) (2025-05-26T23:27:15Z) - Next-Generation Phishing: How LLM Agents Empower Cyber Attackers [10.067883724547182]
フィッシングメールのエスカレートする脅威は、Large Language Models(LLMs)の台頭により、ますます洗練されつつある。
攻撃者はLSMを利用して、より説得力があり回避的なフィッシングメールを作成するため、現在のフィッシング防御のレジリエンスを評価することが不可欠である。
我々は、Gmail Spam Filter、Apache SpamAssassin、Proofpointなどの従来のフィッシング検出と、SVM、Logistic Regression、Naive Bayesといった機械学習モデルに関する包括的な評価を行います。
以上の結果から,全検知器にまたがるリフレッシュメールの検出精度は著しく低下し,現在のフィッシング防御における重大な弱点が浮き彫りになった。
論文 参考訳(メタデータ) (2024-11-21T06:20:29Z) - PEEK: Phishing Evolution Framework for Phishing Generation and Evolving Pattern Analysis using Large Language Models [10.455333111937598]
フィッシングはいまだに広範囲にわたるサイバー脅威であり、攻撃者は詐欺メールを使って被害者を誘惑し、機密情報を暴露している。
深層学習はフィッシング攻撃に対する防御において重要な要素となっているが、これらのアプローチは重大な制限に直面している。
フィッシングメールデータセットの質と多様性を向上するためのPEEK(Phishing Evolution FramEworK)を提案する。
論文 参考訳(メタデータ) (2024-11-18T09:03:51Z) - From ML to LLM: Evaluating the Robustness of Phishing Webpage Detection Models against Adversarial Attacks [0.8050163120218178]
フィッシング攻撃は、ユーザーを騙して機密情報を盗み、重大なサイバーセキュリティの脅威を引き起こす。
我々は、さまざまなフィッシング機能を正当なWebページに埋め込むことで、敵対的なフィッシングWebページを生成するツールであるPhishOracleを開発した。
本研究は, フィッシング検出モデルによる敵攻撃に対する脆弱性を強調し, より堅牢な検出アプローチの必要性を強調した。
論文 参考訳(メタデータ) (2024-07-29T18:21:34Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。