論文の概要: Can AI Models be Jailbroken to Phish Elderly Victims? An End-to-End Evaluation
- arxiv url: http://arxiv.org/abs/2511.11759v1
- Date: Thu, 13 Nov 2025 23:16:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.289443
- Title: Can AI Models be Jailbroken to Phish Elderly Victims? An End-to-End Evaluation
- Title(参考訳): AIモデルは高齢者の被害者にジェイルブレイクされるか? : エンドツーエンドの評価
- Authors: Fred Heiding, Simon Lermen,
- Abstract要約: 我々は、攻撃者がAIの安全性障害を利用して脆弱な人口に危害を加える方法をエンドツーエンドで示す。
4つの攻撃カテゴリにまたがる6つのフロンティアLSMにおける安全ガードレールの評価を行った。
108人のボランティアによる人間による検証調査では、AIが生成したフィッシングメールが11%の参加者を危険にさらした。
- 参考スコア(独自算出の注目度): 0.22917707112773592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an end-to-end demonstration of how attackers can exploit AI safety failures to harm vulnerable populations: from jailbreaking LLMs to generate phishing content, to deploying those messages against real targets, to successfully compromising elderly victims. We systematically evaluated safety guardrails across six frontier LLMs spanning four attack categories, revealing critical failures where several models exhibited near-complete susceptibility to certain attack vectors. In a human validation study with 108 senior volunteers, AI-generated phishing emails successfully compromised 11\% of participants. Our work uniquely demonstrates the complete attack pipeline targeting elderly populations, highlighting that current AI safety measures fail to protect those most vulnerable to fraud. Beyond generating phishing content, LLMs enable attackers to overcome language barriers and conduct multi-turn trust-building conversations at scale, fundamentally transforming fraud economics. While some providers report voluntary counter-abuse efforts, we argue these remain insufficient.
- Abstract(参考訳): 我々は、攻撃者がAIの安全性を悪用して脆弱な人口に危害を加える方法のエンドツーエンドのデモを示す: LLMをジェイルブレイクし、フィッシングコンテンツを生成し、それらのメッセージを実際のターゲットにデプロイし、高齢者の犠牲者をうまく妥協させる。
4つの攻撃カテゴリにまたがる6つのフロンティアLSMの安全ガードレールを系統的に評価し,いくつかのモデルが特定の攻撃ベクトルに対してほぼ完全な感受性を示した場合の致命的障害を明らかにした。
108人のボランティアによる人間による検証調査では、AIが生成したフィッシングメールが116%の参加者を危険にさらした。
我々の研究は、高齢者をターゲットにした完全な攻撃パイプラインを独自に示しており、現在のAI安全対策が詐欺に最も脆弱な人々を保護するのに失敗していることを強調している。
フィッシングコンテンツの生成以外にも、LLMは攻撃者が言語障壁を克服し、大規模にマルチターン信頼構築の会話を行えるようにし、詐欺経済学を根本的に変える。
一部のプロバイダは、自発的な逆利用の取り組みを報告していますが、これらは依然として不十分です。
関連論文リスト
- Security Concerns for Large Language Models: A Survey [4.1824815480811806]
大きな言語モデル(LLM)は自然言語処理に革命をもたらしたが、その能力は新たなセキュリティ脆弱性も導入している。
この調査は、脅威をいくつかの重要な領域に分類する、これらの新興懸念の包括的概要を提供する。
LLMが安全で有益であることを保証するために、堅牢で多層的なセキュリティ戦略を推進していくことの重要性を強調した。
論文 参考訳(メタデータ) (2025-05-24T22:22:43Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Global Challenge for Safe and Secure LLMs Track 1 [57.08717321907755]
LLM(Global Challenge for Safe and Secure Large Language Models)は、AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が主催する先駆的イニシアチブである。
本稿では,AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が組織した先駆的イニシアチブであるLLM(Global Challenge for Safe and Secure Large Language Models)を紹介する。
論文 参考訳(メタデータ) (2024-11-21T08:20:31Z) - Next-Generation Phishing: How LLM Agents Empower Cyber Attackers [10.067883724547182]
フィッシングメールのエスカレートする脅威は、Large Language Models(LLMs)の台頭により、ますます洗練されつつある。
攻撃者はLSMを利用して、より説得力があり回避的なフィッシングメールを作成するため、現在のフィッシング防御のレジリエンスを評価することが不可欠である。
我々は、Gmail Spam Filter、Apache SpamAssassin、Proofpointなどの従来のフィッシング検出と、SVM、Logistic Regression、Naive Bayesといった機械学習モデルに関する包括的な評価を行います。
以上の結果から,全検知器にまたがるリフレッシュメールの検出精度は著しく低下し,現在のフィッシング防御における重大な弱点が浮き彫りになった。
論文 参考訳(メタデータ) (2024-11-21T06:20:29Z) - Lateral Phishing With Large Language Models: A Large Organization Comparative Study [3.590574657417729]
大規模言語モデル(LLM)の出現は、高度にターゲットを絞った、パーソナライズされ、自動化された攻撃を発生させることで、フィッシングメールの脅威を増大させた。
LLMが生成する横型フィッシングメールの有効性を人間によるものであるものと比較する大規模な研究は乏しい。
本研究は,教育機関におけるサイバーセキュリティ脅威の理解に寄与する。
論文 参考訳(メタデータ) (2024-01-18T05:06:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。