論文の概要: Weak-to-Strong Jailbreaking on Large Language Models
- arxiv url: http://arxiv.org/abs/2401.17256v2
- Date: Mon, 5 Feb 2024 18:19:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 02:30:02.614892
- Title: Weak-to-Strong Jailbreaking on Large Language Models
- Title(参考訳): 大規模言語モデルによる弱強弱化脱獄
- Authors: Xuandong Zhao, Xianjun Yang, Tianyu Pang, Chao Du, Lei Li, Yu-Xiang
Wang, William Yang Wang
- Abstract要約: 大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
- 参考スコア(独自算出の注目度): 96.50953637783581
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are vulnerable to jailbreak attacks - resulting
in harmful, unethical, or biased text generations. However, existing
jailbreaking methods are computationally costly. In this paper, we propose the
weak-to-strong jailbreaking attack, an efficient method to attack aligned LLMs
to produce harmful text. Our key intuition is based on the observation that
jailbroken and aligned models only differ in their initial decoding
distributions. The weak-to-strong attack's key technical insight is using two
smaller models (a safe and an unsafe one) to adversarially modify a
significantly larger safe model's decoding probabilities. We evaluate the
weak-to-strong attack on 5 diverse LLMs from 3 organizations. The results show
our method can increase the misalignment rate to over 99% on two datasets with
just one forward pass per example. Our study exposes an urgent safety issue
that needs to be addressed when aligning LLMs. As an initial attempt, we
propose a defense strategy to protect against such attacks, but creating more
advanced defenses remains challenging. The code for replicating the method is
available at https://github.com/XuandongZhao/weak-to-strong
- Abstract(参考訳): 大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
しかし、既存の脱獄法は計算コストがかかる。
本稿では,LLMを攻撃して有害なテキストを生成する手法として,弱いジェイルブレイク攻撃を提案する。
我々の重要な直感は、ジェイルブレイクとアライメントモデルが初期デコード分布でのみ異なるという観察に基づいている。
弱い対強攻撃の主な技術的洞察は、より小さな2つのモデル(安全モデルと安全でないモデル)を使用して、はるかに大きな安全なモデルの復号可能性を修正することである。
3つの組織から5種類のLSMに対する弱い攻撃を評価した。
その結果,本手法は2つのデータセットにおいて,例えば1回のフォワードパスで99%以上のミスアリゲーション率を向上できることがわかった。
LLMを整列させる際に対処する必要がある緊急安全問題を明らかにする。
最初の試みとして、このような攻撃から防御するための防衛戦略を提案するが、より高度な防御を創造することは依然として困難である。
このメソッドを複製するコードはhttps://github.com/xuandongzhao/weak-to-strongで入手できる。
関連論文リスト
- Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [59.25318174362368]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。
我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。
安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文 参考訳(メタデータ) (2024-12-22T14:18:39Z) - A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。
我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - AdaPPA: Adaptive Position Pre-Fill Jailbreak Attack Approach Targeting LLMs [34.221522224051846]
大規模言語モデル(LLM)に対するジェイルブレイク攻撃を適応的に行うための適応的位置補充型ジェイルブレイク攻撃手法を提案する。
提案手法は,提案モデルの命令追従能力を利用して,まず安全なコンテンツを出力し,次にその物語シフト能力を利用して有害なコンテンツを生成する。
本手法は,従来の手法と比較して,広く認識されているセキュアモデル(Llama2)において,攻撃成功率を47%向上させることができる。
論文 参考訳(メタデータ) (2024-09-11T00:00:58Z) - Catastrophic Jailbreak of Open-source LLMs via Exploiting Generation [39.829517061574364]
さらに慎重に整列されたモデルも悪意ある操作が可能で、意図しない動作が"jailbreaks"と呼ばれる。
本稿では,デコード方式のバリエーションのみを操作することで,モデルアライメントを阻害するジェネレーションエクスプロイト攻撃を提案する。
本研究は,オープンソースのLCMの安全性評価およびアライメント手順において,大きな失敗を指摘したものである。
論文 参考訳(メタデータ) (2023-10-10T20:15:54Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。