論文の概要: Plentiful Jailbreaks with String Compositions
- arxiv url: http://arxiv.org/abs/2411.01084v3
- Date: Wed, 11 Dec 2024 03:23:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 13:59:23.651452
- Title: Plentiful Jailbreaks with String Compositions
- Title(参考訳): 文字列合成による豊富なジェイルブレイク
- Authors: Brian R. Y. Huang,
- Abstract要約: 大規模言語モデル(LLM)は、多くの敵攻撃やジェイルブレイクメソッドに対して脆弱なままである。
我々のチームは、これらのエンコーディングベースの攻撃を拡張し、それらを可逆的な文字列変換のフレームワークに統合した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Large language models (LLMs) remain vulnerable to a slew of adversarial attacks and jailbreaking methods. One common approach employed by white-hat attackers, or red-teamers, is to process model inputs and outputs using string-level obfuscations, which can include leetspeak, rotary ciphers, Base64, ASCII, and more. Our work extends these encoding-based attacks by unifying them in a framework of invertible string transformations. With invertibility, we can devise arbitrary string compositions, defined as sequences of transformations, that we can encode and decode end-to-end programmatically. We devise a automated best-of-n attack that samples from a combinatorially large number of string compositions. Our jailbreaks obtain competitive attack success rates on several leading frontier models when evaluated on HarmBench, highlighting that encoding-based attacks remain a persistent vulnerability even in advanced LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、多くの敵攻撃やジェイルブレイクの手法に弱いままである。
ホワイトハット攻撃者やレッドチームによる一般的なアプローチは、文字列レベルの難読化(英語版)を使用して入力と出力をモデルで処理することであり、これにはリースピーク、ロータリー暗号、Base64、ASCIIなどが含まれる。
我々の研究は、これらのエンコーディングベースの攻撃を拡張し、それらを可逆的な文字列変換のフレームワークに統一する。
可逆性により、変換のシーケンスとして定義された任意の文字列合成を考案し、エンドツーエンドのプログラムをエンコードし、デコードすることができる。
我々は、組合せ的に多数の文字列合成からサンプルをサンプリングする自動ベスト・オブ・nアタックを考案した。
私たちのジェイルブレイクは、HarmBenchで評価された際、いくつかの主要なフロンティアモデルに対する競合的な攻撃成功率を取得します。
関連論文リスト
- Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - Endless Jailbreaks with Bijection Learning [3.5963161678592828]
ランダムに生成したエンコーディングを用いて,安全性上の脆弱性に対してLLMをファジリングする強力な攻撃アルゴリズムを提案する。
私たちの攻撃は、幅広いフロンティア言語モデルに対して非常に効果的です。
論文 参考訳(メタデータ) (2024-10-02T07:40:56Z) - BaThe: Defense against the Jailbreak Attack in Multimodal Large Language Models by Treating Harmful Instruction as Backdoor Trigger [67.75420257197186]
本研究では,単純なジェイルブレイク防御機構である$textbfBaTheを提案する。
ジェイルブレイクバックドア攻撃は、手作りの弦と組み合わされた有害な命令をトリガーとして使用し、バックドアモデルが禁止された応答を生成する。
有害な命令がトリガーとして機能し、代わりにリジェクション応答をトリガー応答として設定すれば、バックドアモデルがジェイルブレイク攻撃に対して防御できると仮定する。
論文 参考訳(メタデータ) (2024-08-17T04:43:26Z) - h4rm3l: A Dynamic Benchmark of Composable Jailbreak Attacks for LLM Safety Assessment [48.5611060845958]
我々は,静的なデータセットや攻撃や被害を克服するために,構成可能なジェイルブレイク攻撃の新たなベンチマークを提案する。
我々は、h4rm3lを使用して、6つの最先端(SOTA)オープンソースおよびプロプライエタリなLLMをターゲットにした2656の新たなジェイルブレイク攻撃のデータセットを生成する。
合成攻撃のいくつかは、以前報告した攻撃よりも効果的であり、SOTAクローズド言語モデルでは、アタック成功率は90%以上である。
論文 参考訳(メタデータ) (2024-08-09T01:45:39Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。