論文の概要: Jailbreaking ChatGPT via Prompt Engineering: An Empirical Study
- arxiv url: http://arxiv.org/abs/2305.13860v2
- Date: Sun, 10 Mar 2024 13:58:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 17:27:32.096973
- Title: Jailbreaking ChatGPT via Prompt Engineering: An Empirical Study
- Title(参考訳): プロンプトエンジニアリングによるジェイルブレイクChatGPT:実証的研究
- Authors: Yi Liu, Gelei Deng, Zhengzi Xu, Yuekang Li, Yaowen Zheng, Ying Zhang,
Lida Zhao, Tianwei Zhang, Kailong Wang and Yang Liu
- Abstract要約: 大規模言語モデル(LLM)は、大きな可能性を示しているが、コンテンツ制約や潜在的な誤用に関連する課題ももたらしている。
本研究は, 1 つの重要な研究課題について,(1) 脱獄性 LLM を回避できる異なるプロンプトの種類数,(2) 脱獄性 LLM 制約を回避するための脱獄性プロンプトの有効性,(3) 脱獄性プロンプトに対する ChatGPT のレジリエンスについて検討した。
- 参考スコア(独自算出の注目度): 22.411634418082368
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs), like ChatGPT, have demonstrated vast potential
but also introduce challenges related to content constraints and potential
misuse. Our study investigates three key research questions: (1) the number of
different prompt types that can jailbreak LLMs, (2) the effectiveness of
jailbreak prompts in circumventing LLM constraints, and (3) the resilience of
ChatGPT against these jailbreak prompts. Initially, we develop a classification
model to analyze the distribution of existing prompts, identifying ten distinct
patterns and three categories of jailbreak prompts. Subsequently, we assess the
jailbreak capability of prompts with ChatGPT versions 3.5 and 4.0, utilizing a
dataset of 3,120 jailbreak questions across eight prohibited scenarios.
Finally, we evaluate the resistance of ChatGPT against jailbreak prompts,
finding that the prompts can consistently evade the restrictions in 40 use-case
scenarios. The study underscores the importance of prompt structures in
jailbreaking LLMs and discusses the challenges of robust jailbreak prompt
generation and prevention.
- Abstract(参考訳): ChatGPTのような大規模言語モデル(LLM)は、大きな可能性を示しているが、コンテンツ制約や潜在的な誤用に関連する課題ももたらしている。
本研究は, 1 つの重要な研究課題について,(1) 脱獄性 LLM を回避できる異なるプロンプトの種類数,(2) 脱獄性 LLM 制約を回避するための脱獄性プロンプトの有効性,(3) 脱獄性プロンプトに対する ChatGPT のレジリエンスについて検討した。
まず,既存のプロンプトの分布を分析し,10種類のパターンと3種類のジェイルブレイクプロンプトを識別する分類モデルを開発した。
その後,チャットgptバージョン3.5と4.0のプロンプトによるジェイルブレイク能力を評価し,8つの禁止シナリオにまたがる3,120件のジェイルブレイク質問のデータセットを用いた。
最後に、チャットgptの脱獄プロンプトに対する耐性を評価し、40のユースケースシナリオにおいて、プロンプトが一貫して制限を回避できることを見出した。
本研究は, 脱獄型LDMの迅速な構造の重要性を浮き彫りにして, 堅牢な脱獄早期発生・予防の課題を論じるものである。
関連論文リスト
- JailbreakHunter: A Visual Analytics Approach for Jailbreak Prompts Discovery from Large-Scale Human-LLM Conversational Datasets [41.28080625748892]
大規模言語モデル (LLM) は注目されているが、誤用リスクが懸念されている。
JailbreakHunterは、大規模な人間とLLMの会話データセットでジェイルブレイクプロンプトを特定するためのビジュアル分析手法である。
論文 参考訳(メタデータ) (2024-07-03T12:10:41Z) - Virtual Context: Enhancing Jailbreak Attacks with Special Token Injection [54.05862550647966]
本稿では、以前LLMセキュリティで見過ごされていた特別なトークンを活用して、ジェイルブレイク攻撃を改善する仮想コンテキストを提案する。
総合的な評価によると、仮想コンテキストによるジェイルブレイク攻撃は、4つの広く使われているジェイルブレイク手法の成功率を約40%向上させることができる。
論文 参考訳(メタデータ) (2024-06-28T11:35:54Z) - WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models [66.34505141027624]
我々は、WildTeamingを紹介した。これは自動LLM安全リチームフレームワークで、Wild-Chatbotインタラクションをマイニングし、新しいジェイルブレイク戦術の5.7Kのユニークなクラスタを発見する。
WildTeamingは、未確認のフロンティアLSMの脆弱性を明らかにし、最大4.6倍の多様性と敵の攻撃に成功した。
論文 参考訳(メタデータ) (2024-06-26T17:31:22Z) - EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models [53.87416566981008]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃の構築と評価を容易にする統合フレームワークであるEasyJailbreakを紹介する。
Selector、Mutator、Constraint、Evaluatorの4つのコンポーネントを使ってJailbreak攻撃を構築する。
10の異なるLSMで検証した結果、さまざまなジェイルブレイク攻撃で平均60%の侵入確率で重大な脆弱性が判明した。
論文 参考訳(メタデータ) (2024-03-18T18:39:53Z) - LLMs Can Defend Themselves Against Jailbreaking in a Practical Manner: A
Vision Paper [16.078682415975337]
Jailbreakingは、既成の大規模言語モデル(LLM)に配置された安全アライメントをバイパスする、新たな敵攻撃である。
本稿では,SELFDEFENDと呼ばれる軽量で実用的な防御手法を提案する。
jailbreakプロンプトが最小限の遅延と、通常のユーザプロンプトが無視できる遅延で、既存のjailbreak攻撃を防げます。
論文 参考訳(メタデータ) (2024-02-24T05:34:43Z) - Comprehensive Evaluation of ChatGPT Reliability Through Multilingual
Inquiries [10.140483464820935]
ChatGPTは1億人以上のユーザーを持つ最も人気のある大規模言語モデル(LLM)である。
ジェイルブレイクの脆弱性があるため、ChatGPTは人々の生活に悪影響を及ぼす可能性がある。
マルチリンガルラッピングがChatGPTのジェイルブレイクにつながるかどうかを検討した。
論文 参考訳(メタデータ) (2023-12-16T19:44:48Z) - Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts [64.60375604495883]
GPT-4Vでは,システムに侵入する脆弱性が発見された。
GPT-4を自身に対するレッド・チーム・ツールとして活用することで、盗難システムプロンプトを利用した脱獄プロンプトの可能性を探索することを目指している。
また,システムプロンプトの変更による脱獄攻撃に対する防御効果も評価した。
論文 参考訳(メタデータ) (2023-11-15T17:17:39Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - "Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models [50.22128133926407]
我々は2022年12月から2023年12月までの1,405件の脱獄プロンプトを包括的に分析する。
131のjailbreakコミュニティを特定し,Jailbreakプロンプトの特徴とその主要な攻撃戦略を明らかにする。
また,ChatGPT (GPT-3.5) と GPT-4 の攻撃成功率 0.95 を達成できる5つの有効なジェイルブレイクプロンプトを同定した。
論文 参考訳(メタデータ) (2023-08-07T16:55:20Z) - Tricking LLMs into Disobedience: Formalizing, Analyzing, and Detecting Jailbreaks [12.540530764250812]
我々は、既知の(そして可能な)ジェイルブレイクの形式主義と分類法を提案する。
私たちは3700のjailbreakプロンプトにまたがるモデル出力のデータセットを4つのタスクでリリースしています。
論文 参考訳(メタデータ) (2023-05-24T09:57:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。