論文の概要: All in How You Ask for It: Simple Black-Box Method for Jailbreak Attacks
- arxiv url: http://arxiv.org/abs/2401.09798v2
- Date: Mon, 22 Jan 2024 06:22:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 19:08:58.742073
- Title: All in How You Ask for It: Simple Black-Box Method for Jailbreak Attacks
- Title(参考訳): 脱獄の仕方:ブラックボックスで簡単にジェイルブレイクを防げる方法
- Authors: Kazuhiro Takemoto
- Abstract要約: ChatGPTのような大規模言語モデル(LLMs)は、倫理的に有害なプロンプトを生み出すために、セーフガードをバイパスする、ジェイルブレイクの課題に直面している。
本研究では,ジェイルブレイクプロンプトを効果的に生成するブラックボックス手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) like ChatGPT face `jailbreak' challenges, where
safeguards are bypassed to produce ethically harmful prompts. This study
proposes a simple black-box method to effectively generate jailbreak prompts,
overcoming the high complexity and computational costs associated with existing
methods. The proposed technique iteratively rewrites harmful prompts into
non-harmful expressions using the target LLM itself, based on the hypothesis
that LLMs can directly sample expressions that bypass safeguards. Demonstrated
through experiments with ChatGPT (GPT-3.5 and GPT-4) and Gemini-Pro, this
method achieved an attack success rate of over 80% within an average of 5
iterations and remained effective despite model updates. The generated
jailbreak prompts were naturally-worded and concise; moreover, they were
difficult-to-defend. These results indicate that creating effective jailbreak
prompts is simpler than previously considered, suggesting that black-box
jailbreak attacks pose a more serious threat.
- Abstract(参考訳): ChatGPTのような大規模言語モデル(LLM)は、倫理的に有害なプロンプトを生み出すために、セーフガードをバイパスする‘ジェイルブレイク’の課題に直面している。
本研究では,ジェイルブレイクプロンプトを効果的に生成する簡単なブラックボックス法を提案する。
提案手法は, LLMが安全ガードを回避した表現を直接サンプリングできるという仮説に基づいて, 有害なプロンプトを標的のLSM自身を用いて繰り返し書き直す。
ChatGPT(GPT-3.5およびGPT-4)とGemini-Proの実験により実証されたこの手法は、平均5回の反復で80%以上の攻撃成功率を達成した。
生成されたジェイルブレイクプロンプトは自然に言葉で書かれ、簡潔だった。
これらの結果は、効果的なジェイルブレイクプロンプトの作成が従来考えられていたよりも簡単であることを示し、ブラックボックスのジェイルブレイク攻撃がより深刻な脅威となることを示唆している。
関連論文リスト
- Jigsaw Puzzles: Splitting Harmful Questions to Jailbreak Large Language Models [50.89022445197919]
大規模言語モデル(LLM)は、人間との関わりにおいて卓越した性能を示した。
LLMは脱獄攻撃に弱いため、有害な反応が生じる。
我々は,高度LLMに対する単純かつ効果的なマルチターンジェイルブレイク戦略であるJigsaw Puzzles (JSP)を提案する。
論文 参考訳(メタデータ) (2024-10-15T10:07:15Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - Effective and Evasive Fuzz Testing-Driven Jailbreaking Attacks against LLMs [33.87649859430635]
大規模言語モデル(LLM)は様々なタスクに優れていますが、それでも脱獄攻撃に対して脆弱です。
我々は,ブラックボックスファジテストのアプローチを,一連のカスタマイズされた設計で適応させる新しいジェイルブレイク攻撃フレームワークを提案する。
攻撃成功率は90%,80%,74%以上であり,既存のベースラインを60%以上越えている。
論文 参考訳(メタデータ) (2024-09-23T10:03:09Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - Virtual Context: Enhancing Jailbreak Attacks with Special Token Injection [54.05862550647966]
本稿では、以前LLMセキュリティで見過ごされていた特別なトークンを活用して、ジェイルブレイク攻撃を改善する仮想コンテキストを提案する。
総合的な評価によると、仮想コンテキストによるジェイルブレイク攻撃は、4つの広く使われているジェイルブレイク手法の成功率を約40%向上させることができる。
論文 参考訳(メタデータ) (2024-06-28T11:35:54Z) - Comprehensive Assessment of Jailbreak Attacks Against LLMs [28.58973312098698]
4つのカテゴリから13の最先端ジェイルブレイク法,16の違反カテゴリから160の質問,6つの人気のあるLDMについて検討した。
実験の結果, 最適化されたジェイルブレイクは高い攻撃成功率を確実に達成することが示された。
攻撃性能と効率のトレードオフについて論じるとともに、脱獄プロンプトの転送性は依然として維持可能であることを示す。
論文 参考訳(メタデータ) (2024-02-08T13:42:50Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - "Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models [50.22128133926407]
我々は2022年12月から2023年12月までの1,405件の脱獄プロンプトを包括的に分析する。
131のjailbreakコミュニティを特定し,Jailbreakプロンプトの特徴とその主要な攻撃戦略を明らかにする。
また,ChatGPT (GPT-3.5) と GPT-4 の攻撃成功率 0.95 を達成できる5つの有効なジェイルブレイクプロンプトを同定した。
論文 参考訳(メタデータ) (2023-08-07T16:55:20Z) - Tricking LLMs into Disobedience: Formalizing, Analyzing, and Detecting Jailbreaks [12.540530764250812]
我々は、既知の(そして可能な)ジェイルブレイクの形式主義と分類法を提案する。
私たちは3700のjailbreakプロンプトにまたがるモデル出力のデータセットを4つのタスクでリリースしています。
論文 参考訳(メタデータ) (2023-05-24T09:57:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。