論文の概要: Improved Few-Shot Jailbreaking Can Circumvent Aligned Language Models and Their Defenses
- arxiv url: http://arxiv.org/abs/2406.01288v2
- Date: Wed, 30 Oct 2024 12:08:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:25:46.621989
- Title: Improved Few-Shot Jailbreaking Can Circumvent Aligned Language Models and Their Defenses
- Title(参考訳): 改良されたFew-Shot Jailbreakは、言語モデルとその防御を回避できる
- Authors: Xiaosen Zheng, Tianyu Pang, Chao Du, Qian Liu, Jing Jiang, Min Lin,
- Abstract要約: 多数のデモ(最大数百)は、その長いコンテキスト能力を活用することで、最先端のLDMをジェイルブレイクすることができる。
本稿では,[/INST]のような特別なシステムトークンの注入や,収集したデモプールからのデモレベルのランダム検索などの改良手法を提案する。
- 参考スコア(独自算出の注目度): 37.56003689042975
- License:
- Abstract: Recently, Anil et al. (2024) show that many-shot (up to hundreds of) demonstrations can jailbreak state-of-the-art LLMs by exploiting their long-context capability. Nevertheless, is it possible to use few-shot demonstrations to efficiently jailbreak LLMs within limited context sizes? While the vanilla few-shot jailbreaking may be inefficient, we propose improved techniques such as injecting special system tokens like [/INST] and employing demo-level random search from a collected demo pool. These simple techniques result in surprisingly effective jailbreaking against aligned LLMs (even with advanced defenses). For examples, our method achieves >80% (mostly >95%) ASRs on Llama-2-7B and Llama-3-8B without multiple restarts, even if the models are enhanced by strong defenses such as perplexity detection and/or SmoothLLM, which is challenging for suffix-based jailbreaking. In addition, we conduct comprehensive and elaborate (e.g., making sure to use correct system prompts) evaluations against other aligned LLMs and advanced defenses, where our method consistently achieves nearly 100% ASRs. Our code is available at https://github.com/sail-sg/I-FSJ.
- Abstract(参考訳): 最近、Anil et al (2024) は、多数のデモ(最大数百のデモ)が、その長いコンテキスト能力を利用して最先端のLLMをジェイルブレイクできることを示した。
それでも、限られたコンテキストサイズでLLMを効率的にジェイルブレイクするために、数発のデモを使用することは可能ですか?
バニラ数発のジェイルブレイクは効率が悪いかもしれないが、我々は[/INST]のような特別なシステムトークンを注入したり、収集されたデモプールからデモレベルのランダム検索を採用するなど、改良された手法を提案する。
これらの単純な技術は、(高度な防御でも)整列したLDMに対して驚くほど効果的なジェイルブレイクをもたらす。
例えば, Llama-2-7B と Llama-3-8B の ASR は, パープレキシティ検出や SmoothLLM などの強力な防御力によって強化されたとしても, 再起動を伴わない 80% 以上 (95% 以上) の ASR が達成される。
さらに,システムプロンプトを正しく使用するための総合的かつ精巧な評価(例えば,システムプロンプトの正しい使用)を,他のLLMや先進防衛に対して実施する。
私たちのコードはhttps://github.com/sail-sg/I-FSJ.comで利用可能です。
関連論文リスト
- SQL Injection Jailbreak: a structural disaster of large language models [71.55108680517422]
LLMによる入力プロンプトの構築を利用して、ユーザプロンプトにジェイルブレイク情報を注入する新しいジェイルブレイク手法を提案する。
提案手法は,AdvBench の文脈でよく知られた5つのオープンソース LLM に対する攻撃成功率を約100% 達成する。
論文 参考訳(メタデータ) (2024-11-03T13:36:34Z) - What Features in Prompts Jailbreak LLMs? Investigating the Mechanisms Behind Attacks [3.0700566896646047]
異なるジェイルブレイク手法が、異なる非線形特徴を介してプロンプトで動作することを示す。
これらの機械的ジェイルブレイクは、トレーニングされた35のテクニックのうち34つよりも確実にGemma-7B-ITをジェイルブレイクすることができる。
論文 参考訳(メタデータ) (2024-11-02T17:29:47Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - Effective and Evasive Fuzz Testing-Driven Jailbreaking Attacks against LLMs [33.87649859430635]
大規模言語モデル(LLM)は様々なタスクに優れていますが、それでも脱獄攻撃に対して脆弱です。
我々は,ブラックボックスファジテストのアプローチを,一連のカスタマイズされた設計で適応させる新しいジェイルブレイク攻撃フレームワークを提案する。
攻撃成功率は90%,80%,74%以上であり,既存のベースラインを60%以上越えている。
論文 参考訳(メタデータ) (2024-09-23T10:03:09Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。