Fugu-MT 論文翻訳(概要): "Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models

論文の概要: "Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models

arxiv url: http://arxiv.org/abs/2308.03825v1
Date: Mon, 7 Aug 2023 16:55:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-09 15:24:55.950864
Title: "Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models
Title（参考訳）: "do anything now": 大規模言語モデルにおけるインザワイルドジェイルブレイクプロンプトの特性と評価
Authors: Xinyue Shen and Zeyuan Chen and Michael Backes and Yun Shen and Yang Zhang
Abstract要約: 6ヶ月で4つのプラットフォームから6,387件のプロンプトを収集した。我々は,ジェイルブレイクプロンプトの特異な特徴と,インジェクションや特権エスカレーションなどの主要な攻撃戦略を発見する。実験の結果,現行のLLMとセーフガードは,すべてのシナリオにおいて,ジェイルブレイクのプロンプトを適切に防御できないことがわかった。
参考スコア（独自算出の注目度）: 28.72197050927338
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The misuse of large language models (LLMs) has garnered significant attention from the general public and LLM vendors. In response, efforts have been made to align LLMs with human values and intent use. However, a particular type of adversarial prompts, known as jailbreak prompt, has emerged and continuously evolved to bypass the safeguards and elicit harmful content from LLMs. In this paper, we conduct the first measurement study on jailbreak prompts in the wild, with 6,387 prompts collected from four platforms over six months. Leveraging natural language processing technologies and graph-based community detection methods, we discover unique characteristics of jailbreak prompts and their major attack strategies, such as prompt injection and privilege escalation. We also observe that jailbreak prompts increasingly shift from public platforms to private ones, posing new challenges for LLM vendors in proactive detection. To assess the potential harm caused by jailbreak prompts, we create a question set comprising 46,800 samples across 13 forbidden scenarios. Our experiments show that current LLMs and safeguards cannot adequately defend jailbreak prompts in all scenarios. Particularly, we identify two highly effective jailbreak prompts which achieve 0.99 attack success rates on ChatGPT (GPT-3.5) and GPT-4, and they have persisted online for over 100 days. Our work sheds light on the severe and evolving threat landscape of jailbreak prompts. We hope our study can facilitate the research community and LLM vendors in promoting safer and regulated LLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)の誤用は、一般大衆やLLMベンダーから大きな注目を集めている。これに対し、LLMを人的価値と意図的利用と整合させる努力がなされている。しかし、特定の種類の敵のプロンプト、すなわちジェイルブレイクプロンプトが出現し、LLMから有害なコンテンツを排除し、継続的に進化している。本稿では,6ヶ月間に4つのプラットフォームから6,387個のプロンプトを収集し,野生における脱獄プロンプトの初回測定を行った。自然言語処理技術とグラフベースのコミュニティ検出手法を活用し,ジェイルブレイクプロンプトの特徴と,インジェクションや特権エスカレーションといった主要な攻撃戦略を明らかにする。私たちはまた、Jailbreakが公共プラットフォームからプライベートプラットフォームへと徐々に移行し、積極的に検知するLLMベンダーにとって新たな課題となることを観察しています。脱獄プロンプトによる潜在的被害を評価するため,13のシナリオにわたる46,800のサンプルからなる質問セットを作成する。私たちの実験では、現在のllmとsafeguardsは、すべてのシナリオにおいてジェイルブレイクプロンプトを適切に防御できないことが示されています。特に,ChatGPT(GPT-3.5)とGPT-4(GPT-4)の攻撃成功率0.99を達成し,100日以上オンラインに継続している。我々の研究は、脱獄プロンプトの厳しさと進化の脅威に光を当てている。我々は,研究コミュニティとLLMベンダーがより安全かつ規制されたLLMを促進することを願っている。

関連論文リスト

LLMs Caught in the Crossfire: Malware Requests and Jailbreak Challenges [70.85114705489222]
悪意のあるコード生成のための3,520のジェイルブレイクプロンプトを含むベンチマークデータセットであるMalwareBenchを提案する。 M MalwareBenchは、11のJailbreakメソッドと29のコード機能カテゴリをカバーする、320の手作業による悪意のあるコード生成要件に基づいている。実験の結果、LLMは悪意のあるコード生成要求を拒否する限られた能力を示し、複数のjailbreakメソッドを組み合わせることで、モデルのセキュリティ機能をさらに低下させることが示された。
論文参考訳（メタデータ） (2025-06-09T12:02:39Z)
SQL Injection Jailbreak: a structural disaster of large language models [71.55108680517422]
LLMによる入力プロンプトの構築を利用して、ユーザプロンプトにジェイルブレイク情報を注入する新しいジェイルブレイク手法を提案する。提案手法は,AdvBench の文脈でよく知られた5つのオープンソース LLM に対する攻撃成功率を約100% 達成する。
論文参考訳（メタデータ） (2024-11-03T13:36:34Z)
What Features in Prompts Jailbreak LLMs? Investigating the Mechanisms Behind Attacks [3.0700566896646047]
異なるジェイルブレイク手法が、異なる非線形特徴を介してプロンプトで動作することを示す。これらの機械的ジェイルブレイクは、トレーニングされた35のテクニックのうち34つよりも確実にGemma-7B-ITをジェイルブレイクすることができる。
論文参考訳（メタデータ） (2024-11-02T17:29:47Z)
EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。 LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文参考訳（メタデータ） (2024-08-07T07:46:08Z)
Knowledge-to-Jailbreak: One Knowledge Point Worth One Attack [86.6931690001357]
Knowledge-to-jailbreakは、ドメイン知識からジェイルブレイクを生成し、特定のドメイン上での大規模言語モデルの安全性を評価することを目的としている。 12,974組の知識ジェイルブレイクペアを持つ大規模データセットを収集し、ジェイルブレイクジェネレータとして大規模言語モデルを微調整する。
論文参考訳（メタデータ） (2024-06-17T15:59:59Z)
EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models [53.87416566981008]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃の構築と評価を容易にする統合フレームワークであるEasyJailbreakを紹介する。 Selector、Mutator、Constraint、Evaluatorの4つのコンポーネントを使ってJailbreak攻撃を構築する。 10の異なるLSMで検証した結果、さまざまなジェイルブレイク攻撃で平均60%の侵入確率で重大な脆弱性が判明した。
論文参考訳（メタデータ） (2024-03-18T18:39:53Z)
Comprehensive Assessment of Jailbreak Attacks Against LLMs [28.58973312098698]
4つのカテゴリから13の最先端ジェイルブレイク法,16の違反カテゴリから160の質問,6つの人気のあるLDMについて検討した。実験の結果, 最適化されたジェイルブレイクは高い攻撃成功率を確実に達成することが示された。攻撃性能と効率のトレードオフについて論じるとともに、脱獄プロンプトの転送性は依然として維持可能であることを示す。
論文参考訳（メタデータ） (2024-02-08T13:42:50Z)
Tree of Attacks: Jailbreaking Black-Box LLMs Automatically [34.36053833900958]
本稿では,ジェイルブレイクを自動生成するTAP(Tree of Attacks with Pruning)を提案する。 TAPは、最先端のLDMを80%以上にわたってジェイルブレイクするプロンプトを生成する。 TAPはまた、LlamaGuardのような最先端のガードレールによって保護されたLLMをジェイルブレイクすることができる。
論文参考訳（メタデータ） (2023-12-04T18:49:23Z)
Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts [64.60375604495883]
GPT-4Vでは,システムに侵入する脆弱性が発見された。 GPT-4を自身に対するレッド・チーム・ツールとして活用することで、盗難システムプロンプトを利用した脱獄プロンプトの可能性を探索することを目指している。また,システムプロンプトの変更による脱獄攻撃に対する防御効果も評価した。
論文参考訳（メタデータ） (2023-11-15T17:17:39Z)
A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。ジェイルブレイク」と呼ばれる敵のプロンプトは保護を回避できる有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文参考訳（メタデータ） (2023-11-14T16:02:16Z)
Tricking LLMs into Disobedience: Formalizing, Analyzing, and Detecting Jailbreaks [12.540530764250812]
我々は、既知の(そして可能な)ジェイルブレイクの形式主義と分類法を提案する。私たちは3700のjailbreakプロンプトにまたがるモデル出力のデータセットを4つのタスクでリリースしています。
論文参考訳（メタデータ） (2023-05-24T09:57:37Z)
Jailbreaking ChatGPT via Prompt Engineering: An Empirical Study [22.411634418082368]
大規模言語モデル(LLM)は、大きな可能性を示しているが、コンテンツ制約や潜在的な誤用に関連する課題ももたらしている。本研究は, 1 つの重要な研究課題について,(1) 脱獄性 LLM を回避できる異なるプロンプトの種類数,(2) 脱獄性 LLM 制約を回避するための脱獄性プロンプトの有効性,(3) 脱獄性プロンプトに対する ChatGPT のレジリエンスについて検討した。
論文参考訳（メタデータ） (2023-05-23T09:33:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。