論文の概要: Weak-to-Strong Jailbreaking on Large Language Models
- arxiv url: http://arxiv.org/abs/2401.17256v2
- Date: Mon, 5 Feb 2024 18:19:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 02:30:02.614892
- Title: Weak-to-Strong Jailbreaking on Large Language Models
- Title(参考訳): 大規模言語モデルによる弱強弱化脱獄
- Authors: Xuandong Zhao, Xianjun Yang, Tianyu Pang, Chao Du, Lei Li, Yu-Xiang
Wang, William Yang Wang
- Abstract要約: 大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
- 参考スコア(独自算出の注目度): 96.50953637783581
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are vulnerable to jailbreak attacks - resulting
in harmful, unethical, or biased text generations. However, existing
jailbreaking methods are computationally costly. In this paper, we propose the
weak-to-strong jailbreaking attack, an efficient method to attack aligned LLMs
to produce harmful text. Our key intuition is based on the observation that
jailbroken and aligned models only differ in their initial decoding
distributions. The weak-to-strong attack's key technical insight is using two
smaller models (a safe and an unsafe one) to adversarially modify a
significantly larger safe model's decoding probabilities. We evaluate the
weak-to-strong attack on 5 diverse LLMs from 3 organizations. The results show
our method can increase the misalignment rate to over 99% on two datasets with
just one forward pass per example. Our study exposes an urgent safety issue
that needs to be addressed when aligning LLMs. As an initial attempt, we
propose a defense strategy to protect against such attacks, but creating more
advanced defenses remains challenging. The code for replicating the method is
available at https://github.com/XuandongZhao/weak-to-strong
- Abstract(参考訳): 大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
しかし、既存の脱獄法は計算コストがかかる。
本稿では,LLMを攻撃して有害なテキストを生成する手法として,弱いジェイルブレイク攻撃を提案する。
我々の重要な直感は、ジェイルブレイクとアライメントモデルが初期デコード分布でのみ異なるという観察に基づいている。
弱い対強攻撃の主な技術的洞察は、より小さな2つのモデル(安全モデルと安全でないモデル)を使用して、はるかに大きな安全なモデルの復号可能性を修正することである。
3つの組織から5種類のLSMに対する弱い攻撃を評価した。
その結果,本手法は2つのデータセットにおいて,例えば1回のフォワードパスで99%以上のミスアリゲーション率を向上できることがわかった。
LLMを整列させる際に対処する必要がある緊急安全問題を明らかにする。
最初の試みとして、このような攻撃から防御するための防衛戦略を提案するが、より高度な防御を創造することは依然として困難である。
このメソッドを複製するコードはhttps://github.com/xuandongzhao/weak-to-strongで入手できる。
関連論文リスト
- Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - Round Trip Translation Defence against Large Language Model Jailbreaking
Attacks [12.664577378692703]
大規模言語モデル(LLM)に対する社会工学的攻撃に対する防御のためのラウンドトリップ翻訳(RTT)手法を提案する。
RTTは敵のプロンプトを表現し、伝達されたアイデアを一般化し、LSMが誘導された有害な行動を検出するのを容易にする。
私たちはMathsAttackを緩和し、攻撃の成功率を約40%削減した最初の試みです。
論文 参考訳(メタデータ) (2024-02-21T03:59:52Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can
Fool Large Language Models Easily [54.21991825128219]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文 参考訳(メタデータ) (2023-10-23T17:46:07Z) - Catastrophic Jailbreak of Open-source LLMs via Exploiting Generation [39.829517061574364]
さらに慎重に整列されたモデルも悪意ある操作が可能で、意図しない動作が"jailbreaks"と呼ばれる。
本稿では,デコード方式のバリエーションのみを操作することで,モデルアライメントを阻害するジェネレーションエクスプロイト攻撃を提案する。
本研究は,オープンソースのLCMの安全性評価およびアライメント手順において,大きな失敗を指摘したものである。
論文 参考訳(メタデータ) (2023-10-10T20:15:54Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language
Models [60.03889043693601]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。