論文の概要: Can AI Models be Jailbroken to Phish Elderly Victims? An End-to-End Evaluation
- arxiv url: http://arxiv.org/abs/2511.11759v1
- Date: Thu, 13 Nov 2025 23:16:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.289443
- Title: Can AI Models be Jailbroken to Phish Elderly Victims? An End-to-End Evaluation
- Title(参考訳): AIモデルは高齢者の被害者にジェイルブレイクされるか? : エンドツーエンドの評価
- Authors: Fred Heiding, Simon Lermen,
- Abstract要約: 我々は、攻撃者がAIの安全性障害を利用して脆弱な人口に危害を加える方法をエンドツーエンドで示す。
4つの攻撃カテゴリにまたがる6つのフロンティアLSMにおける安全ガードレールの評価を行った。
108人のボランティアによる人間による検証調査では、AIが生成したフィッシングメールが11%の参加者を危険にさらした。
- 参考スコア(独自算出の注目度): 0.22917707112773592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an end-to-end demonstration of how attackers can exploit AI safety failures to harm vulnerable populations: from jailbreaking LLMs to generate phishing content, to deploying those messages against real targets, to successfully compromising elderly victims. We systematically evaluated safety guardrails across six frontier LLMs spanning four attack categories, revealing critical failures where several models exhibited near-complete susceptibility to certain attack vectors. In a human validation study with 108 senior volunteers, AI-generated phishing emails successfully compromised 11\% of participants. Our work uniquely demonstrates the complete attack pipeline targeting elderly populations, highlighting that current AI safety measures fail to protect those most vulnerable to fraud. Beyond generating phishing content, LLMs enable attackers to overcome language barriers and conduct multi-turn trust-building conversations at scale, fundamentally transforming fraud economics. While some providers report voluntary counter-abuse efforts, we argue these remain insufficient.
- Abstract(参考訳): 我々は、攻撃者がAIの安全性を悪用して脆弱な人口に危害を加える方法のエンドツーエンドのデモを示す: LLMをジェイルブレイクし、フィッシングコンテンツを生成し、それらのメッセージを実際のターゲットにデプロイし、高齢者の犠牲者をうまく妥協させる。
4つの攻撃カテゴリにまたがる6つのフロンティアLSMの安全ガードレールを系統的に評価し,いくつかのモデルが特定の攻撃ベクトルに対してほぼ完全な感受性を示した場合の致命的障害を明らかにした。
108人のボランティアによる人間による検証調査では、AIが生成したフィッシングメールが116%の参加者を危険にさらした。
我々の研究は、高齢者をターゲットにした完全な攻撃パイプラインを独自に示しており、現在のAI安全対策が詐欺に最も脆弱な人々を保護するのに失敗していることを強調している。
フィッシングコンテンツの生成以外にも、LLMは攻撃者が言語障壁を克服し、大規模にマルチターン信頼構築の会話を行えるようにし、詐欺経済学を根本的に変える。
一部のプロバイダは、自発的な逆利用の取り組みを報告していますが、これらは依然として不十分です。
関連論文リスト
- Friend or Foe: How LLMs' Safety Mind Gets Fooled by Intent Shift Attack [53.34204977366491]
大きな言語モデル(LLM)は、印象的な機能にもかかわらず、ジェイルブレイク攻撃に対して脆弱なままである。
本稿では,攻撃意図について LLM を混乱させる ISA (Intent Shift Attack) を提案する。
私たちのアプローチでは、元の要求に対して最小限の編集しか必要とせず、自然で、可読性があり、一見無害なプロンプトをもたらす。
論文 参考訳(メタデータ) (2025-11-01T13:44:42Z) - PhishLumos: An Adaptive Multi-Agent System for Proactive Phishing Campaign Mitigation [0.7391823486666542]
PhishLumosは、アダプティブなマルチエージェントシステムで、攻撃キャンペーン全体を積極的に緩和する。
PhishLumosは、回避によってブロックされる代わりに、基盤となるインフラストラクチャを調査するための重要なシグナルとして扱う。
実世界のデータから、サイバーセキュリティの専門家による確認の1週間前、私たちのシステムは中央値のキャンペーンの100%を特定しました。
論文 参考訳(メタデータ) (2025-09-26T02:21:04Z) - Security Concerns for Large Language Models: A Survey [4.1824815480811806]
大きな言語モデル(LLM)は自然言語処理に革命をもたらしたが、その能力は新たなセキュリティ脆弱性も導入している。
この調査は、脅威をいくつかの重要な領域に分類する、これらの新興懸念の包括的概要を提供する。
LLMが安全で有益であることを保証するために、堅牢で多層的なセキュリティ戦略を推進していくことの重要性を強調した。
論文 参考訳(メタデータ) (2025-05-24T22:22:43Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Global Challenge for Safe and Secure LLMs Track 1 [57.08717321907755]
LLM(Global Challenge for Safe and Secure Large Language Models)は、AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が主催する先駆的イニシアチブである。
本稿では,AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が組織した先駆的イニシアチブであるLLM(Global Challenge for Safe and Secure Large Language Models)を紹介する。
論文 参考訳(メタデータ) (2024-11-21T08:20:31Z) - Next-Generation Phishing: How LLM Agents Empower Cyber Attackers [10.067883724547182]
フィッシングメールのエスカレートする脅威は、Large Language Models(LLMs)の台頭により、ますます洗練されつつある。
攻撃者はLSMを利用して、より説得力があり回避的なフィッシングメールを作成するため、現在のフィッシング防御のレジリエンスを評価することが不可欠である。
我々は、Gmail Spam Filter、Apache SpamAssassin、Proofpointなどの従来のフィッシング検出と、SVM、Logistic Regression、Naive Bayesといった機械学習モデルに関する包括的な評価を行います。
以上の結果から,全検知器にまたがるリフレッシュメールの検出精度は著しく低下し,現在のフィッシング防御における重大な弱点が浮き彫りになった。
論文 参考訳(メタデータ) (2024-11-21T06:20:29Z) - LLMs know their vulnerabilities: Uncover Safety Gaps through Natural Distribution Shifts [88.96201324719205]
大規模言語モデル(LLM)の安全性に関する懸念は、事前訓練中に潜在的に有害なデータに曝されることにより、大きな注目を集めている。
我々は、有害なコンテンツに意味的に関連していると思われる良心的なプロンプトが、安全性のメカニズムを回避できる新しい安全性脆弱性をLSMで特定する。
我々は,事前学習における有害なプロンプトに関連するアクターを識別する新しい攻撃手法,textitActorBreakerを導入する。
論文 参考訳(メタデータ) (2024-10-14T16:41:49Z) - LLM Safeguard is a Double-Edged Sword: Exploiting False Positives for Denial-of-Service Attacks [7.013820690538764]
本研究は,セーフガード手法のエンファルス陰性を利用した攻撃について検討する。
悪意のある攻撃者は、セキュリティ保護の偽陽性を悪用する可能性もあり、ユーザーに影響を与えるDoS(DoS)が否定された。
論文 参考訳(メタデータ) (2024-10-03T19:07:53Z) - Purple-teaming LLMs with Adversarial Defender Training [57.535241000787416]
本稿では,PAD(Adversarial Defender Training)を用いたPurple-teaming LLMを提案する。
PADは、赤チーム(アタック)技術と青チーム(セーフティトレーニング)技術を新たに取り入れることで、LSMを保護するために設計されたパイプラインである。
PADは、効果的な攻撃と堅牢な安全ガードレールの確立の両方において、既存のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-07-01T23:25:30Z) - Lateral Phishing With Large Language Models: A Large Organization Comparative Study [3.590574657417729]
大規模言語モデル(LLM)の出現は、高度にターゲットを絞った、パーソナライズされ、自動化された攻撃を発生させることで、フィッシングメールの脅威を増大させた。
LLMが生成する横型フィッシングメールの有効性を人間によるものであるものと比較する大規模な研究は乏しい。
本研究は,教育機関におけるサイバーセキュリティ脅威の理解に寄与する。
論文 参考訳(メタデータ) (2024-01-18T05:06:39Z) - How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to
Challenge AI Safety by Humanizing LLMs [66.05593434288625]
本稿では, 大規模言語モデル (LLM) を人間のようなコミュニケーション手段として, ジェイルブレイクの新たな視点を紹介する。
本研究では,数十年にわたる社会科学研究から派生した説得的分類法を適用し,説得的敵対的プロンプト(PAP)をジェイルブレイク LLM に適用する。
PAPは、Llama 2-7b Chat、GPT-3.5、GPT-4の攻撃成功率を10ドルで一貫して92%以上達成している。
防衛面では,PAPに対する様々なメカニズムを探索し,既存の防衛に重大なギャップがあることを見出した。
論文 参考訳(メタデータ) (2024-01-12T16:13:24Z) - A Robust Adversary Detection-Deactivation Method for Metaverse-oriented
Collaborative Deep Learning [13.131323206843733]
本稿では,潜在的な悪意のある参加者のアクセスを制限し,隔離する逆検出・不活性化手法を提案する。
また,Multiview CDLのケースで詳細な保護分析を行い,その手法を用いて,有害アクセスを効果的に防止できることを示した。
論文 参考訳(メタデータ) (2023-10-21T06:45:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。