論文の概要: Don't Listen To Me: Understanding and Exploring Jailbreak Prompts of Large Language Models
- arxiv url: http://arxiv.org/abs/2403.17336v1
- Date: Tue, 26 Mar 2024 02:47:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 16:55:40.560244
- Title: Don't Listen To Me: Understanding and Exploring Jailbreak Prompts of Large Language Models
- Title(参考訳): Don't Listen to Me: 大規模言語モデルのジェイルブレイクプロンプトの理解と探索
- Authors: Zhiyuan Yu, Xiaogeng Liu, Shunning Liang, Zach Cameron, Chaowei Xiao, Ning Zhang,
- Abstract要約: 生成AIは、大きな言語モデル(LLM)へのユビキタスアクセスを可能にした
脱獄プロンプトは、セキュリティ制限を回避し、本来禁止されるように設計された有害なコンテンツを引き出す最も効果的なメカニズムの1つとして現れてきた。
LLMの専門知識に関わらず、ユーザはしばしばジェイルブレイクを成功させる。
また,脱獄即時生成のプロセスを自動化するアシスタントとしてAIを用いたシステムも開発している。
- 参考スコア(独自算出の注目度): 29.312244478583665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in generative AI have enabled ubiquitous access to large language models (LLMs). Empowered by their exceptional capabilities to understand and generate human-like text, these models are being increasingly integrated into our society. At the same time, there are also concerns on the potential misuse of this powerful technology, prompting defensive measures from service providers. To overcome such protection, jailbreaking prompts have recently emerged as one of the most effective mechanisms to circumvent security restrictions and elicit harmful content originally designed to be prohibited. Due to the rapid development of LLMs and their ease of access via natural languages, the frontline of jailbreak prompts is largely seen in online forums and among hobbyists. To gain a better understanding of the threat landscape of semantically meaningful jailbreak prompts, we systemized existing prompts and measured their jailbreak effectiveness empirically. Further, we conducted a user study involving 92 participants with diverse backgrounds to unveil the process of manually creating jailbreak prompts. We observed that users often succeeded in jailbreak prompts generation regardless of their expertise in LLMs. Building on the insights from the user study, we also developed a system using AI as the assistant to automate the process of jailbreak prompt generation.
- Abstract(参考訳): 生成AIの最近の進歩は、大規模言語モデル(LLM)へのユビキタスアクセスを可能にしている。
人間のような文章を理解して生成する素晴らしい能力によって、これらのモデルは我々の社会にますます統合されつつある。
同時に、この強力な技術の潜在的な誤用も懸念され、サービス提供者からの防衛措置が促される。
このような保護を克服するために、ジェイルブレイクのプロンプトは、セキュリティ制限を回避し、本来禁止されるように設計された有害なコンテンツを引き出す最も効果的なメカニズムの1つとして最近登場した。
LLMの急速な発展と自然言語によるアクセスの容易さにより、ジェイルブレイクプロンプトの前線はオンラインフォーラムやホビイストの間で広く見られる。
意味的に意味のあるジェイルブレイクプロンプトの脅威状況をよりよく理解するために,既存のプロンプトを体系化し,そのジェイルブレイクの有効性を実証的に測定した。
さらに, 多様な背景を持つ92名の被験者を対象に, ジェイルブレイクプロンプトを手作業で作成する過程を明らかにするために, ユーザスタディを行った。
LLMの専門知識に関わらず、ユーザはジェイルブレイクを成功させることが多い。
ユーザスタディから得られた知見に基づいて,我々は,Jailbreakの即時生成プロセスを自動化するアシスタントとしてAIを用いたシステムを開発した。
関連論文リスト
- Foot In The Door: Understanding Large Language Model Jailbreaking via
Cognitive Psychology [12.584928288798658]
本研究では,大規模言語モデル(LLM)の内在的意思決定論理に関する心理学的視点を構築する。
フットイン・ザ・ドア(FITD)技術に基づく自動ブラックボックスジェイルブレイク手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T02:27:55Z) - Is the System Message Really Important to Jailbreaks in Large Language
Models? [5.032370454116833]
ジェイルブレイク(jailbreak)とは、Large Language Models(LLM)が悪質な質問を誘発するときに発生する予期せぬ、潜在的に有害な応答のことである。
本稿では,脱獄プロンプトに耐性のあるシステムメッセージを生成するためのシステムメッセージアルゴリズム(SMEA)を提案する。
我々の研究はLLMのセキュリティを強化し、脱獄の限界を高め、この研究分野の進歩を育みます。
論文 参考訳(メタデータ) (2024-02-20T17:39:40Z) - GUARD: Role-playing to Generate Natural-language Jailbreakings to Test
Guideline Adherence of Large Language Models [17.09386716887775]
主要な安全策の1つは、リリース前にジェイルブレイクで大規模言語モデルを積極的にテストすることである。
我々は,人間の世代スタイルでジェイルブレイクを発生させるための,新しい直感的かつ直感的な戦略を提案する。
我々の異なる役割のシステムは、この知識グラフを利用して新しいジェイルブレイクを生成する。
論文 参考訳(メタデータ) (2024-02-05T18:54:43Z) - How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to
Challenge AI Safety by Humanizing LLMs [66.05593434288625]
本稿では, 大規模言語モデル (LLM) を人間のようなコミュニケーション手段として, ジェイルブレイクの新たな視点を紹介する。
本研究では,数十年にわたる社会科学研究から派生した説得的分類法を適用し,説得的敵対的プロンプト(PAP)をジェイルブレイク LLM に適用する。
PAPは、Llama 2-7b Chat、GPT-3.5、GPT-4の攻撃成功率を10ドルで一貫して92%以上達成している。
防衛面では,PAPに対する様々なメカニズムを探索し,既存の防衛に重大なギャップがあることを見出した。
論文 参考訳(メタデータ) (2024-01-12T16:13:24Z) - Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts [64.60375604495883]
GPT-4Vでは,システムに侵入する脆弱性が発見された。
GPT-4を自身に対するレッド・チーム・ツールとして活用することで、盗難システムプロンプトを利用した脱獄プロンプトの可能性を探索することを目指している。
また,システムプロンプトの変更による脱獄攻撃に対する防御効果も評価した。
論文 参考訳(メタデータ) (2023-11-15T17:17:39Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文 参考訳(メタデータ) (2023-10-23T17:46:07Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [102.17459476527233]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
これらの脆弱性を特定するために,PAIR(Prompt Automatic Iterative Refinement)を提案する。
PAIRは、LCMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z) - "Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak
Prompts on Large Language Models [28.72197050927338]
6ヶ月で4つのプラットフォームから6,387件のプロンプトを収集した。
我々は,ジェイルブレイクプロンプトの特異な特徴と,インジェクションや特権エスカレーションなどの主要な攻撃戦略を発見する。
実験の結果,現行のLLMとセーフガードは,すべてのシナリオにおいて,ジェイルブレイクのプロンプトを適切に防御できないことがわかった。
論文 参考訳(メタデータ) (2023-08-07T16:55:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。