論文の概要: Improved Few-Shot Jailbreaking Can Circumvent Aligned Language Models and Their Defenses
- arxiv url: http://arxiv.org/abs/2406.01288v1
- Date: Mon, 3 Jun 2024 12:59:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 23:09:15.631776
- Title: Improved Few-Shot Jailbreaking Can Circumvent Aligned Language Models and Their Defenses
- Title(参考訳): 改良されたFew-Shot Jailbreakは、言語モデルとその防御を回避できる
- Authors: Xiaosen Zheng, Tianyu Pang, Chao Du, Qian Liu, Jing Jiang, Min Lin,
- Abstract要約: 多数のデモ(最大数百)は、その長いコンテキスト能力を活用することで、最先端のLDMをジェイルブレイクすることができる。
本稿では,[/INST]のような特別なシステムトークンの注入や,収集したデモプールからのデモレベルのランダム検索などの改良手法を提案する。
- 参考スコア(独自算出の注目度): 37.56003689042975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Anil et al. (2024) show that many-shot (up to hundreds of) demonstrations can jailbreak state-of-the-art LLMs by exploiting their long-context capability. Nevertheless, is it possible to use few-shot demonstrations to efficiently jailbreak LLMs within limited context sizes? While the vanilla few-shot jailbreaking may be inefficient, we propose improved techniques such as injecting special system tokens like [/INST] and employing demo-level random search from a collected demo pool. These simple techniques result in surprisingly effective jailbreaking against aligned LLMs (even with advanced defenses). For examples, our method achieves >80% (mostly >95%) ASRs on Llama-2-7B and Llama-3-8B without multiple restarts, even if the models are enhanced by strong defenses such as perplexity detection and/or SmoothLLM, which is challenging for suffix-based jailbreaking. In addition, we conduct comprehensive and elaborate (e.g., making sure to use correct system prompts) evaluations against other aligned LLMs and advanced defenses, where our method consistently achieves nearly 100% ASRs. Our code is available at https://github.com/sail-sg/I-FSJ.
- Abstract(参考訳): 最近、Anil et al (2024) は、多数のデモ(最大数百のデモ)が、その長いコンテキスト能力を利用して最先端のLLMをジェイルブレイクできることを示した。
それでも、限られたコンテキストサイズでLLMを効率的にジェイルブレイクするために、数発のデモを使用することは可能ですか?
バニラ数発のジェイルブレイクは効率が悪いかもしれないが、我々は[/INST]のような特別なシステムトークンを注入したり、収集されたデモプールからデモレベルのランダム検索を採用するなど、改良された手法を提案する。
これらの単純な技術は、(高度な防御でも)整列したLDMに対して驚くほど効果的なジェイルブレイクをもたらす。
例えば, Llama-2-7B と Llama-3-8B の ASR は, パープレキシティ検出や SmoothLLM などの強力な防御力によって強化されたとしても, 再起動を伴わない 80% 以上 (95% 以上) の ASR が達成される。
さらに,システムプロンプトを正しく使用するための総合的かつ精巧な評価(例えば,システムプロンプトの正しい使用)を,他のLLMや先進防衛に対して実施する。
私たちのコードはhttps://github.com/sail-sg/I-FSJ.comで利用可能です。
関連論文リスト
- Bag of Tricks: Benchmarking of Jailbreak Attacks on LLMs [13.317364896194903]
大規模言語モデル(LLM)は、ゼロショット方式で複雑なタスクを実行する上で重要な機能を示している。
それらはジェイルブレイク攻撃の影響を受けやすく、有害な出力を生成するために操作することができる。
論文 参考訳(メタデータ) (2024-06-13T17:01:40Z) - Automatic Jailbreaking of the Text-to-Image Generative AI Systems [76.9697122883554]
本稿では,ChatGPT,Copilot,Geminiなどの商用T2I生成システムの安全性について,ナイーブプロンプトによる著作権侵害について検討する。
安全ガードをバイパスするプロンプトを生成するT2I生成システムに対して,より強力な自動脱獄パイプラインを提案する。
当社のフレームワークは,ChatGPTを11.0%のブロックレートでジェイルブレイクし,その76%で著作権コンテンツを生成する。
論文 参考訳(メタデータ) (2024-05-26T13:32:24Z) - Tastle: Distract Large Language Models for Automatic Jailbreak Attack [9.137714258654842]
大規模言語モデル(LLM)の自動レッドチーム化のためのブラックボックスジェイルブレイクフレームワークを提案する。
我々のフレームワークは、有効性、スケーラビリティ、転送性において優れている。
また,攻撃に対する既存のジェイルブレイク防御手法の有効性についても検討した。
論文 参考訳(メタデータ) (2024-03-13T11:16:43Z) - Comprehensive Assessment of Jailbreak Attacks Against LLMs [28.58973312098698]
4つのカテゴリから13の最先端ジェイルブレイク法,16の違反カテゴリから160の質問,6つの人気のあるLDMについて検討した。
実験の結果, 最適化されたジェイルブレイクは高い攻撃成功率を確実に達成することが示された。
攻撃性能と効率のトレードオフについて論じるとともに、脱獄プロンプトの転送性は依然として維持可能であることを示す。
論文 参考訳(メタデータ) (2024-02-08T13:42:50Z) - Jailbreaking Attack against Multimodal Large Language Model [69.52466793164618]
本稿では,マルチモーダル大規模言語モデル(MLLM)に対するジェイルブレイク攻撃に焦点を当てた。
imgJP (emphimage Jailbreaking Prompt) の探索手法を提案する。
提案手法は, 生成したimgJPをジェイルブレイクモデルに転送できるため, 強いモデル伝達性を示す。
論文 参考訳(メタデータ) (2024-02-04T01:29:24Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。