論文の概要: Catastrophic Jailbreak of Open-source LLMs via Exploiting Generation
- arxiv url: http://arxiv.org/abs/2310.06987v1
- Date: Tue, 10 Oct 2023 20:15:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 01:16:43.935161
- Title: Catastrophic Jailbreak of Open-source LLMs via Exploiting Generation
- Title(参考訳): 爆発発生によるオープンソースLCMの破滅的脱獄
- Authors: Yangsibo Huang, Samyak Gupta, Mengzhou Xia, Kai Li, Danqi Chen
- Abstract要約: さらに慎重に整列されたモデルも悪意ある操作が可能で、意図しない動作が"jailbreaks"と呼ばれる。
本稿では,デコード方式のバリエーションのみを操作することで,モデルアライメントを阻害するジェネレーションエクスプロイト攻撃を提案する。
本研究は,オープンソースのLCMの安全性評価およびアライメント手順において,大きな失敗を指摘したものである。
- 参考スコア(独自算出の注目度): 39.829517061574364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid progress in open-source large language models (LLMs) is
significantly advancing AI development. Extensive efforts have been made before
model release to align their behavior with human values, with the primary goal
of ensuring their helpfulness and harmlessness. However, even carefully aligned
models can be manipulated maliciously, leading to unintended behaviors, known
as "jailbreaks". These jailbreaks are typically triggered by specific text
inputs, often referred to as adversarial prompts. In this work, we propose the
generation exploitation attack, an extremely simple approach that disrupts
model alignment by only manipulating variations of decoding methods. By
exploiting different generation strategies, including varying decoding
hyper-parameters and sampling methods, we increase the misalignment rate from
0% to more than 95% across 11 language models including LLaMA2, Vicuna, Falcon,
and MPT families, outperforming state-of-the-art attacks with $30\times$ lower
computational cost. Finally, we propose an effective alignment method that
explores diverse generation strategies, which can reasonably reduce the
misalignment rate under our attack. Altogether, our study underscores a major
failure in current safety evaluation and alignment procedures for open-source
LLMs, strongly advocating for more comprehensive red teaming and better
alignment before releasing such models. Our code is available at
https://github.com/Princeton-SysML/Jailbreak_LLM.
- Abstract(参考訳): オープンソースの大規模言語モデル(LLM)の急速な進歩は、AI開発を著しく進歩させている。
モデルリリース前に、彼らの行動と人間の価値を一致させるために、広範囲にわたる努力がなされた。
しかし、慎重に整列したモデルでも悪意ある操作が可能であり、「ジェイルブレイク」として知られる意図しない行動につながる。
これらのジェイルブレイクは通常、特定のテキスト入力によって引き起こされ、しばしば逆プロンプトと呼ばれる。
本研究では,デコード方式のバリエーションのみを操作することで,モデルアライメントを阻害する極めて単純な手法であるジェネレーションエクスプロイト攻撃を提案する。
LLaMA2, Vicuna, Falcon, MPTファミリーを含む11の言語モデルにおいて, 様々なデコードハイパーパラメータとサンプリング手法を含むさまざまな生成戦略を活用することにより, ミスアライメント率を0%から95%以上に向上させ, 計算コストを30ドル以上削減した。
最後に,攻撃時のミスアライメント率を合理的に低減できる多種多様な世代戦略を探索する効果的なアライメント手法を提案する。
今回の研究は、オープンソースllmの現在の安全性評価とアライメント手順に重大な失敗を伴い、より包括的なレッドチーム編成とより優れたアライメントを強く主張しています。
私たちのコードはhttps://github.com/Princeton-SysML/Jailbreak_LLM.comで利用可能です。
関連論文リスト
- Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z) - Defending Against Alignment-Breaking Attacks via Robustly Aligned LLM [25.303015480101447]
我々は、アライメントを破る可能性のある攻撃に対して、ロバストにアライメントされたLLM(RA-LLM)を導入する。
RA-LLMは、最先端の敵のプロンプトと、手作りのジェイルブレイクプロンプトの両方を防御できる。
論文 参考訳(メタデータ) (2023-09-18T02:07:22Z) - Open Sesame! Universal Black Box Jailbreaking of Large Language Models [0.0]
大規模言語モデル(LLM)は、有用で安全な応答を提供するように設計されている。
LLMは、しばしばユーザーの意図や社会的ガイドラインに合わせるためにアライメント技術に頼っている。
モデルアーキテクチャやパラメータがアクセスできない場合に,遺伝的アルゴリズム(GA)を用いてLLMを操作する手法を提案する。
論文 参考訳(メタデータ) (2023-09-04T08:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。