Fugu-MT 論文翻訳(概要): Catastrophic Jailbreak of Open-source LLMs via Exploiting Generation

論文の概要: Catastrophic Jailbreak of Open-source LLMs via Exploiting Generation

arxiv url: http://arxiv.org/abs/2310.06987v1
Date: Tue, 10 Oct 2023 20:15:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-13 01:16:43.935161
Title: Catastrophic Jailbreak of Open-source LLMs via Exploiting Generation
Title（参考訳）: 爆発発生によるオープンソースLCMの破滅的脱獄
Authors: Yangsibo Huang, Samyak Gupta, Mengzhou Xia, Kai Li, Danqi Chen
Abstract要約: さらに慎重に整列されたモデルも悪意ある操作が可能で、意図しない動作が"jailbreaks"と呼ばれる。本稿では,デコード方式のバリエーションのみを操作することで,モデルアライメントを阻害するジェネレーションエクスプロイト攻撃を提案する。本研究は,オープンソースのLCMの安全性評価およびアライメント手順において,大きな失敗を指摘したものである。
参考スコア（独自算出の注目度）: 39.829517061574364
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid progress in open-source large language models (LLMs) is significantly advancing AI development. Extensive efforts have been made before model release to align their behavior with human values, with the primary goal of ensuring their helpfulness and harmlessness. However, even carefully aligned models can be manipulated maliciously, leading to unintended behaviors, known as "jailbreaks". These jailbreaks are typically triggered by specific text inputs, often referred to as adversarial prompts. In this work, we propose the generation exploitation attack, an extremely simple approach that disrupts model alignment by only manipulating variations of decoding methods. By exploiting different generation strategies, including varying decoding hyper-parameters and sampling methods, we increase the misalignment rate from 0% to more than 95% across 11 language models including LLaMA2, Vicuna, Falcon, and MPT families, outperforming state-of-the-art attacks with $30\times$ lower computational cost. Finally, we propose an effective alignment method that explores diverse generation strategies, which can reasonably reduce the misalignment rate under our attack. Altogether, our study underscores a major failure in current safety evaluation and alignment procedures for open-source LLMs, strongly advocating for more comprehensive red teaming and better alignment before releasing such models. Our code is available at https://github.com/Princeton-SysML/Jailbreak_LLM.
Abstract（参考訳）: オープンソースの大規模言語モデル(LLM)の急速な進歩は、AI開発を著しく進歩させている。モデルリリース前に、彼らの行動と人間の価値を一致させるために、広範囲にわたる努力がなされた。しかし、慎重に整列したモデルでも悪意ある操作が可能であり、「ジェイルブレイク」として知られる意図しない行動につながる。これらのジェイルブレイクは通常、特定のテキスト入力によって引き起こされ、しばしば逆プロンプトと呼ばれる。本研究では,デコード方式のバリエーションのみを操作することで,モデルアライメントを阻害する極めて単純な手法であるジェネレーションエクスプロイト攻撃を提案する。 LLaMA2, Vicuna, Falcon, MPTファミリーを含む11の言語モデルにおいて, 様々なデコードハイパーパラメータとサンプリング手法を含むさまざまな生成戦略を活用することにより, ミスアライメント率を0%から95%以上に向上させ, 計算コストを30ドル以上削減した。最後に,攻撃時のミスアライメント率を合理的に低減できる多種多様な世代戦略を探索する効果的なアライメント手法を提案する。今回の研究は、オープンソースllmの現在の安全性評価とアライメント手順に重大な失敗を伴い、より包括的なレッドチーム編成とより優れたアライメントを強く主張しています。私たちのコードはhttps://github.com/Princeton-SysML/Jailbreak_LLM.comで利用可能です。

関連論文リスト

Prefill-Based Jailbreak: A Novel Approach of Bypassing LLM Safety Boundary [2.4329261266984346]
LLM(Large Language Models)は、有用で安全なコンテンツを生成するように設計されている。一般的にジェイルブレイクと呼ばれる敵の攻撃は安全プロトコルをバイパスできる LLMのプリフィル機能を利用した新しいジェイルブレイク攻撃手法を提案する。
論文参考訳（メタデータ） (2025-04-28T07:38:43Z)
Foot-In-The-Door: A Multi-turn Jailbreak for LLMs [40.958137601841734]
主な課題はjailbreakで、敵はビルトインのセーフガードをバイパスして有害な出力を誘導する。心理学的フット・イン・ザ・ドアの原則に着想を得て,新しいマルチターンジェイルブレイク法であるFITDを導入する。提案手法は,中間的なブリッジプロンプトを通じてユーザクエリの悪意ある意図を段階的にエスカレートし,それ自身でモデル応答を調整し,有害な応答を誘導する。
論文参考訳（メタデータ） (2025-02-27T06:49:16Z)
CCJA: Context-Coherent Jailbreak Attack for Aligned Large Language Models [18.06388944779541]
ジェイルブレイク(jailbreaking)とは、意図しない振る舞いをトリガーする大きな言語モデルである。本稿では,ジェイルブレイク攻撃の成功率とセマンティック・コヒーレンスとのバランスをとる新しい手法を提案する。本手法は攻撃効率において最先端のベースラインよりも優れている。
論文参考訳（メタデータ） (2025-02-17T02:49:26Z)
Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [55.253208152184065]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文参考訳（メタデータ） (2024-12-22T14:18:39Z)
LIAR: Leveraging Inference Time Alignment (Best-of-N) to Jailbreak LLMs in Seconds [98.20826635707341]
LIAR(Leveraging Inference Time Alignment to jailbReak)は、ジェイルブレイク攻撃に適した高速で効率的なNのアプローチである。その結果, 最適Nアプローチは, 整列LLMのロバスト性を評価する上で, 単純かつ高効率な戦略であることがわかった。
論文参考訳（メタデータ） (2024-12-06T18:02:59Z)
Stochastic Monkeys at Play: Random Augmentations Cheaply Break LLM Safety Alignment [16.5939079098358]
本稿では,入力に対する単純なランダムな拡張が,最先端のLCMにおける安全アライメントの有効性にどのように影響するかを検討する。低リソース・無知な攻撃者は1プロンプト当たり25のランダムな拡張でアライメントを回避できる可能性を大幅に改善できることを示す。
論文参考訳（メタデータ） (2024-11-05T03:51:13Z)
A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文参考訳（メタデータ） (2024-10-21T17:27:01Z)
Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文参考訳（メタデータ） (2024-10-15T06:31:04Z)
AdaPPA: Adaptive Position Pre-Fill Jailbreak Attack Approach Targeting LLMs [34.221522224051846]
大規模言語モデル(LLM)に対するジェイルブレイク攻撃を適応的に行うための適応的位置補充型ジェイルブレイク攻撃手法を提案する。提案手法は,提案モデルの命令追従能力を利用して,まず安全なコンテンツを出力し,次にその物語シフト能力を利用して有害なコンテンツを生成する。本手法は,従来の手法と比較して,広く認識されているセキュアモデル(Llama2)において,攻撃成功率を47%向上させることができる。
論文参考訳（メタデータ） (2024-09-11T00:00:58Z)
EEG-Defender: Defending against Jailbreak through Early Exit Generation of Large Language Models [14.5687457011354]
大規模言語モデル(LLM)は、様々なアプリケーションで注目を集めている。悪意のある目的のためにこれらのモデルを悪用しようとするユーザもいるため、懸念が高まっている。我々は,LEMに対するEEG-Defenderと呼ばれる,シンプルながら重要な防御手法を導入する。
論文参考訳（メタデータ） (2024-08-21T03:25:31Z)
Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。既存のジェイルブレイク法は計算コストがかかる。我々は、弱々しく強固な脱獄攻撃を提案する。
論文参考訳（メタデータ） (2024-01-30T18:48:37Z)
SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文参考訳（メタデータ） (2023-10-05T17:01:53Z)
AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。 AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文参考訳（メタデータ） (2023-10-03T19:44:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。