論文の概要: Universal and Transferable Adversarial Attacks on Aligned Language
Models
- arxiv url: http://arxiv.org/abs/2307.15043v2
- Date: Wed, 20 Dec 2023 20:48:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 18:45:03.972585
- Title: Universal and Transferable Adversarial Attacks on Aligned Language
Models
- Title(参考訳): 言語モデルに対する普遍的および移動可能な敵攻撃
- Authors: Andy Zou, Zifan Wang, Nicholas Carlini, Milad Nasr, J. Zico Kolter,
Matt Fredrikson
- Abstract要約: 本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
- 参考スコア(独自算出の注目度): 118.41733208825278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Because "out-of-the-box" large language models are capable of generating a
great deal of objectionable content, recent work has focused on aligning these
models in an attempt to prevent undesirable generation. While there has been
some success at circumventing these measures -- so-called "jailbreaks" against
LLMs -- these attacks have required significant human ingenuity and are brittle
in practice. In this paper, we propose a simple and effective attack method
that causes aligned language models to generate objectionable behaviors.
Specifically, our approach finds a suffix that, when attached to a wide range
of queries for an LLM to produce objectionable content, aims to maximize the
probability that the model produces an affirmative response (rather than
refusing to answer). However, instead of relying on manual engineering, our
approach automatically produces these adversarial suffixes by a combination of
greedy and gradient-based search techniques, and also improves over past
automatic prompt generation methods.
Surprisingly, we find that the adversarial prompts generated by our approach
are quite transferable, including to black-box, publicly released LLMs.
Specifically, we train an adversarial attack suffix on multiple prompts (i.e.,
queries asking for many different types of objectionable content), as well as
multiple models (in our case, Vicuna-7B and 13B). When doing so, the resulting
attack suffix is able to induce objectionable content in the public interfaces
to ChatGPT, Bard, and Claude, as well as open source LLMs such as LLaMA-2-Chat,
Pythia, Falcon, and others. In total, this work significantly advances the
state-of-the-art in adversarial attacks against aligned language models,
raising important questions about how such systems can be prevented from
producing objectionable information. Code is available at
github.com/llm-attacks/llm-attacks.
- Abstract(参考訳): アウト・オブ・ボックス」な大規模言語モデルは、多くの不快なコンテンツを生成することができるため、最近の研究は、望ましくない生成を防ぐためにこれらのモデルを調整することに注力している。
LLMに対するいわゆる「ジェイルブレイク(jailbreak)」の回避にはいくつかの成功があったが、これらの攻撃には重大な人間の創発が必要であり、実際は脆弱である。
本稿では,協調した言語モデルに不利な振る舞いを生じさせる簡易かつ効果的な攻撃手法を提案する。
特に,本手法では,LLM が好ましくないコンテンツを生成するための広範囲なクエリにアタッチすると,モデルが肯定的な応答を生成する確率を最大化することを目的としている(回答を拒むのではなく)。
しかし,本手法は手動工学に頼らず,グリーディと勾配に基づく探索手法を組み合わせることで,これらの接尾辞を自動生成し,過去の自動プロンプト生成手法を改良する。
意外なことに、我々のアプローチによって生成された敵のプロンプトは、ブラックボックスや公開LLMなど、かなり転送可能である。
具体的には、複数のプロンプト(例えば、さまざまな種類の反対コンテンツを要求するクエリ)と複数のモデル(この場合、Vicuna-7Bと13B)で敵攻撃接尾辞を訓練する。
これにより、結果として生じる攻撃サフィックスは、チャットgpt、bard、claude、およびllama-2-chat、pythia、falconなどのオープンソースllmに対して、公開インターフェースの不快なコンテンツを誘導することができる。
全体として、この研究は、協調言語モデルに対する敵対的攻撃の最先端性を著しく向上させ、そのようなシステムが不適切な情報を生成できないかという重要な疑問を提起する。
コードはgithub.com/llm-attacks/llm-attacksで入手できる。
関連論文リスト
- AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - From Noise to Clarity: Unraveling the Adversarial Suffix of Large
Language Model Attacks via Translation of Text Embeddings [64.26248561154509]
近年の研究では、有害な指示に接尾辞を付けることで、LSMの防御をハックできることが判明している。
本稿では,非可読な逆接尾辞をコヒーレントかつ可読なテキストに翻訳可能な逆接尾辞埋め込み翻訳フレームワーク(ASETF)を提案する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文 参考訳(メタデータ) (2023-10-23T17:46:07Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。