論文の概要: Catastrophic Jailbreak of Open-source LLMs via Exploiting Generation
- arxiv url: http://arxiv.org/abs/2310.06987v1
- Date: Tue, 10 Oct 2023 20:15:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 01:16:43.935161
- Title: Catastrophic Jailbreak of Open-source LLMs via Exploiting Generation
- Title(参考訳): 爆発発生によるオープンソースLCMの破滅的脱獄
- Authors: Yangsibo Huang, Samyak Gupta, Mengzhou Xia, Kai Li, Danqi Chen
- Abstract要約: さらに慎重に整列されたモデルも悪意ある操作が可能で、意図しない動作が"jailbreaks"と呼ばれる。
本稿では,デコード方式のバリエーションのみを操作することで,モデルアライメントを阻害するジェネレーションエクスプロイト攻撃を提案する。
本研究は,オープンソースのLCMの安全性評価およびアライメント手順において,大きな失敗を指摘したものである。
- 参考スコア(独自算出の注目度): 39.829517061574364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid progress in open-source large language models (LLMs) is
significantly advancing AI development. Extensive efforts have been made before
model release to align their behavior with human values, with the primary goal
of ensuring their helpfulness and harmlessness. However, even carefully aligned
models can be manipulated maliciously, leading to unintended behaviors, known
as "jailbreaks". These jailbreaks are typically triggered by specific text
inputs, often referred to as adversarial prompts. In this work, we propose the
generation exploitation attack, an extremely simple approach that disrupts
model alignment by only manipulating variations of decoding methods. By
exploiting different generation strategies, including varying decoding
hyper-parameters and sampling methods, we increase the misalignment rate from
0% to more than 95% across 11 language models including LLaMA2, Vicuna, Falcon,
and MPT families, outperforming state-of-the-art attacks with $30\times$ lower
computational cost. Finally, we propose an effective alignment method that
explores diverse generation strategies, which can reasonably reduce the
misalignment rate under our attack. Altogether, our study underscores a major
failure in current safety evaluation and alignment procedures for open-source
LLMs, strongly advocating for more comprehensive red teaming and better
alignment before releasing such models. Our code is available at
https://github.com/Princeton-SysML/Jailbreak_LLM.
- Abstract(参考訳): オープンソースの大規模言語モデル(LLM)の急速な進歩は、AI開発を著しく進歩させている。
モデルリリース前に、彼らの行動と人間の価値を一致させるために、広範囲にわたる努力がなされた。
しかし、慎重に整列したモデルでも悪意ある操作が可能であり、「ジェイルブレイク」として知られる意図しない行動につながる。
これらのジェイルブレイクは通常、特定のテキスト入力によって引き起こされ、しばしば逆プロンプトと呼ばれる。
本研究では,デコード方式のバリエーションのみを操作することで,モデルアライメントを阻害する極めて単純な手法であるジェネレーションエクスプロイト攻撃を提案する。
LLaMA2, Vicuna, Falcon, MPTファミリーを含む11の言語モデルにおいて, 様々なデコードハイパーパラメータとサンプリング手法を含むさまざまな生成戦略を活用することにより, ミスアライメント率を0%から95%以上に向上させ, 計算コストを30ドル以上削減した。
最後に,攻撃時のミスアライメント率を合理的に低減できる多種多様な世代戦略を探索する効果的なアライメント手法を提案する。
今回の研究は、オープンソースllmの現在の安全性評価とアライメント手順に重大な失敗を伴い、より包括的なレッドチーム編成とより優れたアライメントを強く主張しています。
私たちのコードはhttps://github.com/Princeton-SysML/Jailbreak_LLM.comで利用可能です。
関連論文リスト
- CCJA: Context-Coherent Jailbreak Attack for Aligned Large Language Models [18.06388944779541]
ジェイルブレイク(jailbreaking)とは、意図しない振る舞いをトリガーする大きな言語モデルである。
本稿では,ジェイルブレイク攻撃の成功率とセマンティック・コヒーレンスとのバランスをとる新しい手法を提案する。
本手法は攻撃効率において最先端のベースラインよりも優れている。
論文 参考訳(メタデータ) (2025-02-17T02:49:26Z) - xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - LIAR: Leveraging Inference Time Alignment (Best-of-N) to Jailbreak LLMs in Seconds [98.20826635707341]
LIAR(Leveraging Inference Time Alignment to jailbReak)は、ジェイルブレイク攻撃に適した高速で効率的なNのアプローチである。
その結果, 最適Nアプローチは, 整列LLMのロバスト性を評価する上で, 単純かつ高効率な戦略であることがわかった。
論文 参考訳(メタデータ) (2024-12-06T18:02:59Z) - A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。
我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - AdaPPA: Adaptive Position Pre-Fill Jailbreak Attack Approach Targeting LLMs [34.221522224051846]
大規模言語モデル(LLM)に対するジェイルブレイク攻撃を適応的に行うための適応的位置補充型ジェイルブレイク攻撃手法を提案する。
提案手法は,提案モデルの命令追従能力を利用して,まず安全なコンテンツを出力し,次にその物語シフト能力を利用して有害なコンテンツを生成する。
本手法は,従来の手法と比較して,広く認識されているセキュアモデル(Llama2)において,攻撃成功率を47%向上させることができる。
論文 参考訳(メタデータ) (2024-09-11T00:00:58Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。