論文の概要: GPTFUZZER : Red Teaming Large Language Models with Auto-Generated
Jailbreak Prompts
- arxiv url: http://arxiv.org/abs/2309.10253v1
- Date: Tue, 19 Sep 2023 02:19:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 16:46:48.078355
- Title: GPTFUZZER : Red Teaming Large Language Models with Auto-Generated
Jailbreak Prompts
- Title(参考訳): GPTFUZER : 自動生成ジェイルブレイクプロンプトを用いた大規模言語モデルのレッドチーム化
- Authors: Jiahao Yu, Xingwei Lin, Xinyu Xing
- Abstract要約: fuzzerは、AFLファジィングフレームワークにインスパイアされた、新しいブラックボックスジェイルブレイクファジィングフレームワークである。
中心となるファザーは、人書きテンプレートを種として始まり、ミュート演算子を使って変更して新しいテンプレートを生成する。
以上の結果から,すべての人造テンプレートがフェールした場合であっても,常に高い成功率でジェイルブレイクテンプレートを生成できることが示唆された。
- 参考スコア(独自算出の注目度): 22.087671024167467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have recently experienced tremendous popularity
and are widely used from casual conversations to AI-driven programming.
However, despite their considerable success, LLMs are not entirely reliable and
can give detailed guidance on how to conduct harmful or illegal activities.
While safety measures can reduce the risk of such outputs, adversarial
"jailbreak" attacks can still exploit LLMs to produce harmful content. These
jailbreak templates are typically manually crafted, making large-scale testing
challenging. In this paper, we introduce \fuzzer, a novel black-box jailbreak
fuzzing framework inspired by AFL fuzzing framework. Instead of manual
engineering, \fuzzer automates the generation of jailbreak templates for
red-teaming LLMs. At its core, \fuzzer starts with human-written templates as
seeds, then mutates them using mutate operators to produce new templates. We
detail three key components of \fuzzer: a seed selection strategy for balancing
efficiency and variability, metamorphic relations for creating semantically
equivalent or similar sentences, and a judgment model to assess the success of
a jailbreak attack. We tested \fuzzer on various commercial and open-source
LLMs, such as ChatGPT, LLaMa-2, and Claude2, under diverse attack scenarios.
Our results indicate that \fuzzer consistently produces jailbreak templates
with a high success rate, even in settings where all human-crafted templates
fail. Notably, even starting with suboptimal seed templates, \fuzzer maintains
over 90\% attack success rate against ChatGPT and Llama-2 models. We believe
\fuzzer will aid researchers and practitioners in assessing LLM robustness and
will spur further research into LLM safety.
- Abstract(参考訳): 大規模言語モデル(LLM)は最近非常に人気があり、カジュアルな会話からAI駆動プログラミングまで広く使われている。
しかし、その大きな成功にもかかわらず、LSMは完全に信頼されておらず、有害または違法な活動の実施方法について詳細なガイダンスを与えることができる。
安全対策はそのようなアウトプットのリスクを減らすことができるが、敵の「ジェイルブレイク」攻撃はLLMを悪用して有害なコンテンツを生成することができる。
これらのジェイルブレイクテンプレートは通常手動で作成されるため、大規模なテストは難しい。
本稿では,AFLファジィフレームワークに触発された新しいブラックボックスジェイルブレイクファジィフレームワークである \fuzzer を紹介する。
手動のエンジニアリングの代わりに、 \fuzzer は llm をレッドチームするためのジェイルブレイクテンプレートの生成を自動化する。
中心となるのは、人間が書いたテンプレートを種として使うことから始まり、ミュート演算子を使って変更して新しいテンプレートを生成する。
効率と可変性のバランスをとるためのシード選択戦略,意味的に等価あるいは類似した文を作成するためのメタモルフィックリレーション,脱獄攻撃の成功を評価する判断モデルという3つの重要なコンポーネントを詳述した。
さまざまな攻撃シナリオ下で,ChatGPT,LLaMa-2,Claude2などの商用およびオープンソースLLM上で \fuzzer をテストした。
以上の結果から,すべての人造テンプレートが故障した場合でも,常に高い成功率でジェイルブレイクテンプレートを生成できることがわかった。
特に、最適化されたシードテンプレートから始めると、ChatGPTおよびLlama-2モデルに対する攻撃成功率は90%以上である。
われわれは、研究者や実践者がLLMの堅牢性を評価するのに役立つと信じており、LLMの安全性に関するさらなる研究を促すだろう。
関連論文リスト
- Tastle: Distract Large Language Models for Automatic Jailbreak Attack [9.137714258654842]
大規模言語モデル(LLM)の自動レッドチーム化のためのブラックボックスジェイルブレイクフレームワークを提案する。
我々のフレームワークは、有効性、スケーラビリティ、転送性において優れている。
また,攻撃に対する既存のジェイルブレイク防御手法の有効性についても検討した。
論文 参考訳(メタデータ) (2024-03-13T11:16:43Z) - GUARD: Role-playing to Generate Natural-language Jailbreakings to Test
Guideline Adherence of Large Language Models [17.09386716887775]
主要な安全策の1つは、リリース前にジェイルブレイクで大規模言語モデルを積極的にテストすることである。
我々は,人間の世代スタイルでジェイルブレイクを発生させるための,新しい直感的かつ直感的な戦略を提案する。
我々の異なる役割のシステムは、この知識グラフを利用して新しいジェイルブレイクを生成する。
論文 参考訳(メタデータ) (2024-02-05T18:54:43Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [102.17459476527233]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
これらの脆弱性を特定するために,PAIR(Prompt Automatic Iterative Refinement)を提案する。
PAIRは、LCMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。