論文の概要: Exploiting Jailbreaking Vulnerabilities in Generative AI to Bypass Ethical Safeguards for Facilitating Phishing Attacks
- arxiv url: http://arxiv.org/abs/2507.12185v1
- Date: Wed, 16 Jul 2025 12:32:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.383981
- Title: Exploiting Jailbreaking Vulnerabilities in Generative AI to Bypass Ethical Safeguards for Facilitating Phishing Attacks
- Title(参考訳): フィッシング攻撃に対処する倫理的保護を回避すべく、ジェネレーティブAIにおける脱獄脆弱性の爆発
- Authors: Rina Mishra, Gaurav Varshney,
- Abstract要約: 本研究は,GenAIによる安全保護を回避すべく,ジェイルブレーキング技術を用いて,GenAIのサービスがどのように活用できるかを検討する。
我々はChatGPT 4o Miniを、そのアクセシビリティとステータスを代表的GenAIシステムとして最新の公開モデルとして使用した。
このモデルは、Web、Eメール、SMS(スマイシング)、音声(バイシング)など、さまざまなベクターにわたるフィッシング攻撃の実行において、初心者ユーザーをガイドできることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advent of advanced Generative AI (GenAI) models such as DeepSeek and ChatGPT has significantly reshaped the cybersecurity landscape, introducing both promising opportunities and critical risks. This study investigates how GenAI powered chatbot services can be exploited via jailbreaking techniques to bypass ethical safeguards, enabling the generation of phishing content, recommendation of hacking tools, and orchestration of phishing campaigns. In ethically controlled experiments, we used ChatGPT 4o Mini selected for its accessibility and status as the latest publicly available model at the time of experimentation, as a representative GenAI system. Our findings reveal that the model could successfully guide novice users in executing phishing attacks across various vectors, including web, email, SMS (smishing), and voice (vishing). Unlike automated phishing campaigns that typically follow detectable patterns, these human-guided, AI assisted attacks are capable of evading traditional anti phishing mechanisms, thereby posing a growing security threat. We focused on DeepSeek and ChatGPT due to their widespread adoption and technical relevance in 2025. The study further examines common jailbreaking techniques and the specific vulnerabilities exploited in these models. Finally, we evaluate a range of mitigation strategies such as user education, advanced authentication mechanisms, and regulatory policy measures and discuss emerging trends in GenAI facilitated phishing, outlining future research directions to strengthen cybersecurity defenses in the age of artificial intelligence.
- Abstract(参考訳): DeepSeekやChatGPTといった先進的なジェネレーティブAI(GenAI)モデルの出現は、サイバーセキュリティの展望を大きく変え、有望な機会と重要なリスクの両方を導入している。
本研究では,GenAIを利用したチャットボットサービスが,倫理的保護を回避し,フィッシングコンテンツの生成,ハッキングツールの推奨,フィッシングキャンペーンのオーケストレーションを可能にするために,ジェイルブレイク技術によってどのように活用できるかを検討する。
倫理的に制御された実験において、我々は、そのアクセシビリティと最新の公開モデルとして選択されたChatGPT 4o Miniを代表的GenAIシステムとして使用した。
このモデルは、Web、メール、SMS(スマイシング)、音声(バイシング)など、さまざまなベクターにわたるフィッシング攻撃の実行において、初心者ユーザーをガイドできることがわかった。
通常、検出可能なパターンに従う自動フィッシングキャンペーンとは異なり、これらのAI支援攻撃は従来のアンチフィッシングメカニズムを回避し、セキュリティ上の脅威を増大させる。
私たちは2025年に広く採用されたDeepSeekとChatGPTに注目しました。
この研究では、一般的なジェイルブレイク技術と、これらのモデルで悪用される特定の脆弱性についても調べている。
最後に、ユーザ教育、高度な認証機構、規制政策など、さまざまな緩和戦略を評価し、AI時代のサイバーセキュリティ防衛を強化するための今後の研究方針を概説する。
関連論文リスト
- Jailbreaking Generative AI: Empowering Novices to Conduct Phishing Attacks [0.40964539027092917]
本稿では,最新のAIモデルであるChatGPT-4o Miniの社会工学的攻撃に対する誤用について検討する。
この結果から,経験の浅いユーザでも高度なフィッシングキャンペーンを実施できるという不安感が浮き彫りになった。
論文 参考訳(メタデータ) (2025-03-03T10:51:10Z) - Computational Safety for Generative AI: A Signal Processing Perspective [65.268245109828]
計算安全性は、GenAIにおける安全性の定量的評価、定式化、研究を可能にする数学的枠組みである。
ジェイルブレイクによる悪意のあるプロンプトを検出するために, 感度解析と損失景観解析がいかに有効かを示す。
我々は、AIの安全性における信号処理の鍵となる研究課題、機会、そして重要な役割について論じる。
論文 参考訳(メタデータ) (2025-02-18T02:26:50Z) - SoK: Watermarking for AI-Generated Content [112.9218881276487]
ウォーターマーキングスキームは、AI生成コンテンツに隠された信号を埋め込んで、信頼性の高い検出を可能にする。
透かしは、誤情報や偽造と戦ってAIの安全性と信頼性を高める上で重要な役割を果たす。
本研究の目的は、研究者が透かし法や応用の進歩を指導し、GenAIの幅広い意味に対処する政策立案者を支援することである。
論文 参考訳(メタデータ) (2024-11-27T16:22:33Z) - Review of Generative AI Methods in Cybersecurity [0.6990493129893112]
本稿では、Generative AI(GenAI)の現状について概観する。
暴行、脱獄、即時注射と逆心理学の応用をカバーしている。
また、サイバー犯罪におけるGenAIのさまざまな応用として、自動ハッキング、フィッシングメール、ソーシャルエンジニアリング、リバース暗号、攻撃ペイロードの作成、マルウェアの作成などを提供している。
論文 参考訳(メタデータ) (2024-03-13T17:05:05Z) - Decoding the Threat Landscape : ChatGPT, FraudGPT, and WormGPT in Social Engineering Attacks [0.0]
ジェネレーティブAIモデルは、サイバー攻撃の分野に革命をもたらし、悪意あるアクターに、説得力がありパーソナライズされたフィッシングルアーを作る力を与えている。
これらのモデルであるChatGPT、FraudGPT、WormGPTは、既存の脅威を増大させ、新たなリスクの次元へと導いてきた。
これらの脅威に対処するため、従来のセキュリティ対策、AIによるセキュリティソリューション、サイバーセキュリティにおける協調的なアプローチなど、さまざまな戦略を概説する。
論文 参考訳(メタデータ) (2023-10-09T10:31:04Z) - BAGM: A Backdoor Attack for Manipulating Text-to-Image Generative Models [54.19289900203071]
テキストから画像への生成人工知能の普及は、大衆の関心を集めている。
ユーザを微妙に操作するコンテンツを生成するために,この技術を攻撃できることを実証する。
テキストから画像生成モデル(BAGM)に対するバックドアアタックを提案する。
我々の攻撃は、生成過程の3段階にわたる3つの一般的なテキスト・画像生成モデルをターゲットにした最初の攻撃である。
論文 参考訳(メタデータ) (2023-07-31T08:34:24Z) - From ChatGPT to ThreatGPT: Impact of Generative AI in Cybersecurity and
Privacy [0.0]
この研究論文は、サイバーセキュリティとプライバシの領域におけるGenAIの限界、課題、潜在的なリスク、そして機会を強調している。
本稿では、サイバー犯罪者がGenAIツールをサイバー攻撃に利用する方法について検討する。
また、ChatGPTの社会的、法的、倫理的意味についても論じる。
論文 参考訳(メタデータ) (2023-07-03T00:36:57Z) - Impacts and Risk of Generative AI Technology on Cyber Defense [0.0]
我々は,サイバー攻撃のライフサイクルを理解するために,CKC(Cyber Kill Chain)を活用することを提案する。
本稿では,GenAI手法の攻撃的利用によるリスク領域の包括的分析を行うことを目的とする。
我々はまた、脅威俳優が採用する戦略を分析し、サイバー防衛の意義を強調した。
論文 参考訳(メタデータ) (2023-06-22T16:51:41Z) - When Authentication Is Not Enough: On the Security of Behavioral-Based Driver Authentication Systems [53.2306792009435]
我々はランダムフォレストとリカレントニューラルネットワークアーキテクチャに基づく2つの軽量ドライバ認証システムを開発した。
我々は,SMARTCANとGANCANという2つの新しいエスケープアタックを開発することで,これらのシステムに対する攻撃を最初に提案する。
コントリビューションを通じて、これらのシステムを安全に採用する実践者を支援し、車の盗難を軽減し、ドライバーのセキュリティを高める。
論文 参考訳(メタデータ) (2023-06-09T14:33:26Z) - Towards Automated Classification of Attackers' TTPs by combining NLP
with ML Techniques [77.34726150561087]
我々は,NLP(Natural Language Processing)と,研究におけるセキュリティ情報抽出に使用される機械学習技術の評価と比較を行った。
本研究では,攻撃者の戦術や手法に従って非構造化テキストを自動的に分類するデータ処理パイプラインを提案する。
論文 参考訳(メタデータ) (2022-07-18T09:59:21Z) - Adversarial Machine Learning Attacks and Defense Methods in the Cyber
Security Domain [58.30296637276011]
本稿では,機械学習技術に基づくセキュリティソリューションに対する敵攻撃に関する最新の研究を要約する。
サイバーセキュリティドメインでエンドツーエンドの敵攻撃を実装するという、ユニークな課題を議論するのは、これが初めてである。
論文 参考訳(メタデータ) (2020-07-05T18:22:40Z) - Adversarial vs behavioural-based defensive AI with joint, continual and
active learning: automated evaluation of robustness to deception, poisoning
and concept drift [62.997667081978825]
人工知能(AI)の最近の進歩は、サイバーセキュリティのための行動分析(UEBA)に新たな能力をもたらした。
本稿では、検出プロセスを改善し、人間の専門知識を効果的に活用することにより、この攻撃を効果的に軽減するソリューションを提案する。
論文 参考訳(メタデータ) (2020-01-13T13:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。