論文の概要: Catastrophic Jailbreak of Open-source LLMs via Exploiting Generation
- arxiv url: http://arxiv.org/abs/2310.06987v1
- Date: Tue, 10 Oct 2023 20:15:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 01:16:43.935161
- Title: Catastrophic Jailbreak of Open-source LLMs via Exploiting Generation
- Title(参考訳): 爆発発生によるオープンソースLCMの破滅的脱獄
- Authors: Yangsibo Huang, Samyak Gupta, Mengzhou Xia, Kai Li, Danqi Chen
- Abstract要約: さらに慎重に整列されたモデルも悪意ある操作が可能で、意図しない動作が"jailbreaks"と呼ばれる。
本稿では,デコード方式のバリエーションのみを操作することで,モデルアライメントを阻害するジェネレーションエクスプロイト攻撃を提案する。
本研究は,オープンソースのLCMの安全性評価およびアライメント手順において,大きな失敗を指摘したものである。
- 参考スコア(独自算出の注目度): 39.829517061574364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid progress in open-source large language models (LLMs) is
significantly advancing AI development. Extensive efforts have been made before
model release to align their behavior with human values, with the primary goal
of ensuring their helpfulness and harmlessness. However, even carefully aligned
models can be manipulated maliciously, leading to unintended behaviors, known
as "jailbreaks". These jailbreaks are typically triggered by specific text
inputs, often referred to as adversarial prompts. In this work, we propose the
generation exploitation attack, an extremely simple approach that disrupts
model alignment by only manipulating variations of decoding methods. By
exploiting different generation strategies, including varying decoding
hyper-parameters and sampling methods, we increase the misalignment rate from
0% to more than 95% across 11 language models including LLaMA2, Vicuna, Falcon,
and MPT families, outperforming state-of-the-art attacks with $30\times$ lower
computational cost. Finally, we propose an effective alignment method that
explores diverse generation strategies, which can reasonably reduce the
misalignment rate under our attack. Altogether, our study underscores a major
failure in current safety evaluation and alignment procedures for open-source
LLMs, strongly advocating for more comprehensive red teaming and better
alignment before releasing such models. Our code is available at
https://github.com/Princeton-SysML/Jailbreak_LLM.
- Abstract(参考訳): オープンソースの大規模言語モデル(LLM)の急速な進歩は、AI開発を著しく進歩させている。
モデルリリース前に、彼らの行動と人間の価値を一致させるために、広範囲にわたる努力がなされた。
しかし、慎重に整列したモデルでも悪意ある操作が可能であり、「ジェイルブレイク」として知られる意図しない行動につながる。
これらのジェイルブレイクは通常、特定のテキスト入力によって引き起こされ、しばしば逆プロンプトと呼ばれる。
本研究では,デコード方式のバリエーションのみを操作することで,モデルアライメントを阻害する極めて単純な手法であるジェネレーションエクスプロイト攻撃を提案する。
LLaMA2, Vicuna, Falcon, MPTファミリーを含む11の言語モデルにおいて, 様々なデコードハイパーパラメータとサンプリング手法を含むさまざまな生成戦略を活用することにより, ミスアライメント率を0%から95%以上に向上させ, 計算コストを30ドル以上削減した。
最後に,攻撃時のミスアライメント率を合理的に低減できる多種多様な世代戦略を探索する効果的なアライメント手法を提案する。
今回の研究は、オープンソースllmの現在の安全性評価とアライメント手順に重大な失敗を伴い、より包括的なレッドチーム編成とより優れたアライメントを強く主張しています。
私たちのコードはhttps://github.com/Princeton-SysML/Jailbreak_LLM.comで利用可能です。
関連論文リスト
- Stochastic Monkeys at Play: Random Augmentations Cheaply Break LLM Safety Alignment [16.5939079098358]
本稿では,入力に対する単純なランダムな拡張が,最先端のLCMにおける安全アライメントの有効性にどのように影響するかを検討する。
低リソース・無知な攻撃者は1プロンプト当たり25のランダムな拡張でアライメントを回避できる可能性を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2024-11-05T03:51:13Z) - A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。
我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - AdaPPA: Adaptive Position Pre-Fill Jailbreak Attack Approach Targeting LLMs [34.221522224051846]
大規模言語モデル(LLM)に対するジェイルブレイク攻撃を適応的に行うための適応的位置補充型ジェイルブレイク攻撃手法を提案する。
提案手法は,提案モデルの命令追従能力を利用して,まず安全なコンテンツを出力し,次にその物語シフト能力を利用して有害なコンテンツを生成する。
本手法は,従来の手法と比較して,広く認識されているセキュアモデル(Llama2)において,攻撃成功率を47%向上させることができる。
論文 参考訳(メタデータ) (2024-09-11T00:00:58Z) - EEG-Defender: Defending against Jailbreak through Early Exit Generation of Large Language Models [14.5687457011354]
大規模言語モデル(LLM)は、様々なアプリケーションで注目を集めている。
悪意のある目的のためにこれらのモデルを悪用しようとするユーザもいるため、懸念が高まっている。
我々は,LEMに対するEEG-Defenderと呼ばれる,シンプルながら重要な防御手法を導入する。
論文 参考訳(メタデータ) (2024-08-21T03:25:31Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。