論文の概要: "Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models
- arxiv url: http://arxiv.org/abs/2308.03825v2
- Date: Wed, 15 May 2024 12:06:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-16 18:31:50.430611
- Title: "Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models
- Title(参考訳): 「今どんなことでも」:大規模言語モデルを用いたイン・ザ・ワイルド・ジェイルブレイク・プロンプトの特性と評価
- Authors: Xinyue Shen, Zeyuan Chen, Michael Backes, Yun Shen, Yang Zhang,
- Abstract要約: 我々は2022年12月から2023年12月までの1,405件の脱獄プロンプトを包括的に分析する。
131のjailbreakコミュニティを特定し,Jailbreakプロンプトの特徴とその主要な攻撃戦略を明らかにする。
また,ChatGPT (GPT-3.5) と GPT-4 の攻撃成功率 0.95 を達成できる5つの有効なジェイルブレイクプロンプトを同定した。
- 参考スコア(独自算出の注目度): 50.22128133926407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The misuse of large language models (LLMs) has drawn significant attention from the general public and LLM vendors. One particular type of adversarial prompt, known as jailbreak prompt, has emerged as the main attack vector to bypass the safeguards and elicit harmful content from LLMs. In this paper, employing our new framework JailbreakHub, we conduct a comprehensive analysis of 1,405 jailbreak prompts spanning from December 2022 to December 2023. We identify 131 jailbreak communities and discover unique characteristics of jailbreak prompts and their major attack strategies, such as prompt injection and privilege escalation. We also observe that jailbreak prompts increasingly shift from online Web communities to prompt-aggregation websites and 28 user accounts have consistently optimized jailbreak prompts over 100 days. To assess the potential harm caused by jailbreak prompts, we create a question set comprising 107,250 samples across 13 forbidden scenarios. Leveraging this dataset, our experiments on six popular LLMs show that their safeguards cannot adequately defend jailbreak prompts in all scenarios. Particularly, we identify five highly effective jailbreak prompts that achieve 0.95 attack success rates on ChatGPT (GPT-3.5) and GPT-4, and the earliest one has persisted online for over 240 days. We hope that our study can facilitate the research community and LLM vendors in promoting safer and regulated LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の誤用は、一般大衆やLLMベンダーから大きな注目を集めている。
ジェイルブレイクプロンプト(jailbreak prompt)として知られる特定の種類の敵のプロンプトが、防御を回避し、LSMから有害な内容を引き出す主要な攻撃ベクターとして登場した。
本稿では,新しいフレームワークであるJailbreakHubを用いて,2022年12月から2023年12月までの1,405件のジェイルブレイクプロンプトを包括的に分析する。
我々は131のジェイルブレイク・コミュニティを特定し,ジェイルブレイク・プロンプトの特徴と,インジェクションや特権エスカレーションなどの主要な攻撃戦略を明らかにする。
私たちはまた、ジェイルブレイクのプロンプトが、オンラインWebコミュニティからプロンプト集約のWebサイトへ、そして28のユーザアカウントが、100日間にわたって一貫してジェイルブレイクのプロンプトを最適化していることも観察しています。
脱獄プロンプトによる潜在的損害を評価するため,13のシナリオで107,250個のサンプルからなる質問セットを作成する。
このデータセットを利用することで、一般的な6つのLSMの実験では、すべてのシナリオにおいて、彼らのセーフガードがジェイルブレイクプロンプトを適切に防御できないことが示されています。
特に,ChatGPT(GPT-3.5)とGPT-4(GPT-4)の攻撃成功率0.95を達成できる5つの有効なジェイルブレイクプロンプトを同定した。
我々は,研究コミュニティとLLMベンダーが,より安全かつ規制されたLLMを促進することを願っている。
関連論文リスト
- SQL Injection Jailbreak: a structural disaster of large language models [71.55108680517422]
LLMによる入力プロンプトの構築を利用して、ユーザプロンプトにジェイルブレイク情報を注入する新しいジェイルブレイク手法を提案する。
提案手法は,AdvBench の文脈でよく知られた5つのオープンソース LLM に対する攻撃成功率を約100% 達成する。
論文 参考訳(メタデータ) (2024-11-03T13:36:34Z) - What Features in Prompts Jailbreak LLMs? Investigating the Mechanisms Behind Attacks [3.0700566896646047]
異なるジェイルブレイク手法が、異なる非線形特徴を介してプロンプトで動作することを示す。
これらの機械的ジェイルブレイクは、トレーニングされた35のテクニックのうち34つよりも確実にGemma-7B-ITをジェイルブレイクすることができる。
論文 参考訳(メタデータ) (2024-11-02T17:29:47Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - Knowledge-to-Jailbreak: One Knowledge Point Worth One Attack [86.6931690001357]
Knowledge-to-jailbreakは、ドメイン知識からジェイルブレイクを生成し、特定のドメイン上での大規模言語モデルの安全性を評価することを目的としている。
12,974組の知識ジェイルブレイクペアを持つ大規模データセットを収集し、ジェイルブレイクジェネレータとして大規模言語モデルを微調整する。
論文 参考訳(メタデータ) (2024-06-17T15:59:59Z) - Comprehensive Assessment of Jailbreak Attacks Against LLMs [28.58973312098698]
4つのカテゴリから13の最先端ジェイルブレイク法,16の違反カテゴリから160の質問,6つの人気のあるLDMについて検討した。
実験の結果, 最適化されたジェイルブレイクは高い攻撃成功率を確実に達成することが示された。
攻撃性能と効率のトレードオフについて論じるとともに、脱獄プロンプトの転送性は依然として維持可能であることを示す。
論文 参考訳(メタデータ) (2024-02-08T13:42:50Z) - Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts [64.60375604495883]
GPT-4Vでは,システムに侵入する脆弱性が発見された。
GPT-4を自身に対するレッド・チーム・ツールとして活用することで、盗難システムプロンプトを利用した脱獄プロンプトの可能性を探索することを目指している。
また,システムプロンプトの変更による脱獄攻撃に対する防御効果も評価した。
論文 参考訳(メタデータ) (2023-11-15T17:17:39Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Tricking LLMs into Disobedience: Formalizing, Analyzing, and Detecting Jailbreaks [12.540530764250812]
我々は、既知の(そして可能な)ジェイルブレイクの形式主義と分類法を提案する。
私たちは3700のjailbreakプロンプトにまたがるモデル出力のデータセットを4つのタスクでリリースしています。
論文 参考訳(メタデータ) (2023-05-24T09:57:37Z) - Jailbreaking ChatGPT via Prompt Engineering: An Empirical Study [22.411634418082368]
大規模言語モデル(LLM)は、大きな可能性を示しているが、コンテンツ制約や潜在的な誤用に関連する課題ももたらしている。
本研究は, 1 つの重要な研究課題について,(1) 脱獄性 LLM を回避できる異なるプロンプトの種類数,(2) 脱獄性 LLM 制約を回避するための脱獄性プロンプトの有効性,(3) 脱獄性プロンプトに対する ChatGPT のレジリエンスについて検討した。
論文 参考訳(メタデータ) (2023-05-23T09:33:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。