論文の概要: Great, Now Write an Article About That: The Crescendo Multi-Turn LLM Jailbreak Attack
- arxiv url: http://arxiv.org/abs/2404.01833v1
- Date: Tue, 2 Apr 2024 10:45:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 16:49:07.456470
- Title: Great, Now Write an Article About That: The Crescendo Multi-Turn LLM Jailbreak Attack
- Title(参考訳): 映画「Crescendo Multi-Turn LLM」のジェイルブレイク事件
- Authors: Mark Russinovich, Ahmed Salem, Ronen Eldan,
- Abstract要約: 我々は、Crescendoと呼ばれる新しいジェイルブレイク攻撃を導入する。
Crescendoはマルチターンのジェイルブレイクで、一見良心的な方法でモデルと対話する。
我々はChatGPT, Gemini Pro, Gemini-Ultra, LlaMA-2 70b Chat, Anthropic Chatなど,様々な公共システム上でのCrescendoの評価を行った。
- 参考スコア(独自算出の注目度): 5.912639903214644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have risen significantly in popularity and are increasingly being adopted across multiple applications. These LLMs are heavily aligned to resist engaging in illegal or unethical topics as a means to avoid contributing to responsible AI harms. However, a recent line of attacks, known as "jailbreaks", seek to overcome this alignment. Intuitively, jailbreak attacks aim to narrow the gap between what the model can do and what it is willing to do. In this paper, we introduce a novel jailbreak attack called Crescendo. Unlike existing jailbreak methods, Crescendo is a multi-turn jailbreak that interacts with the model in a seemingly benign manner. It begins with a general prompt or question about the task at hand and then gradually escalates the dialogue by referencing the model's replies, progressively leading to a successful jailbreak. We evaluate Crescendo on various public systems, including ChatGPT, Gemini Pro, Gemini-Ultra, LlaMA-2 70b Chat, and Anthropic Chat. Our results demonstrate the strong efficacy of Crescendo, with it achieving high attack success rates across all evaluated models and tasks. Furthermore, we introduce Crescendomation, a tool that automates the Crescendo attack, and our evaluation showcases its effectiveness against state-of-the-art models.
- Abstract(参考訳): 大規模言語モデル(LLM)は急速に人気を高め、複数のアプリケーションにまたがって採用されつつある。
これらのLSMは、責任あるAI害への貢献を避ける手段として、違法または非倫理的なトピックへの関与に強く対応している。
しかし、最近の一連の攻撃は"jailbreaks"と呼ばれ、このアライメントを克服しようと試みている。
直感的には、jailbreak攻撃は、モデルができることと、それがやろうとしていることの間のギャップを狭めることを目的としています。
本稿では,Crescendoと呼ばれる新しいジェイルブレイク攻撃について紹介する。
既存のjailbreakメソッドとは異なり、Crescendoはマルチターンのjailbreakであり、一見した方法でモデルと対話する。
これは、手元にあるタスクに関する一般的なプロンプトや質問から始まり、モデルの応答を参照して徐々に対話をエスカレートし、徐々にジェイルブレイクを成功させる。
我々はChatGPT, Gemini Pro, Gemini-Ultra, LlaMA-2 70b Chat, Anthropic Chatなど,様々な公共システム上でのCrescendoの評価を行った。
以上の結果から,Crescendoの強力な有効性を示し,すべての評価モデルとタスクに対して高い攻撃成功率を達成できた。
さらに、Crescendomationは、Crescendo攻撃を自動化するツールであり、その評価は最先端のモデルに対する効果を示す。
関連論文リスト
- JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models [123.66104233291065]
ジェイルブレイク攻撃は、大きな言語モデル(LLM)が有害、非倫理的、またはその他の不快なコンテンツを生成する原因となる。
JailbreakBenchは、jailbreak攻撃を評価するためのオープンソースのベンチマークである。
論文 参考訳(メタデータ) (2024-03-28T02:44:02Z) - Don't Listen To Me: Understanding and Exploring Jailbreak Prompts of Large Language Models [29.312244478583665]
生成AIは、大きな言語モデル(LLM)へのユビキタスアクセスを可能にした
脱獄プロンプトは、セキュリティ制限を回避し、本来禁止されるように設計された有害なコンテンツを引き出す最も効果的なメカニズムの1つとして現れてきた。
LLMの専門知識に関わらず、ユーザはしばしばジェイルブレイクを成功させる。
また,脱獄即時生成のプロセスを自動化するアシスタントとしてAIを用いたシステムも開発している。
論文 参考訳(メタデータ) (2024-03-26T02:47:42Z) - Comprehensive Assessment of Jailbreak Attacks Against LLMs [28.58973312098698]
4つのカテゴリから13の最先端ジェイルブレイク法,16の違反カテゴリから160の質問,6つの人気のあるLDMについて検討した。
実験の結果, 最適化されたジェイルブレイクは高い攻撃成功率を確実に達成することが示された。
攻撃性能と効率のトレードオフについて論じるとともに、脱獄プロンプトの転送性は依然として維持可能であることを示す。
論文 参考訳(メタデータ) (2024-02-08T13:42:50Z) - Jailbreaking Attack against Multimodal Large Language Model [69.52466793164618]
本稿では,マルチモーダル大規模言語モデル(MLLM)に対するジェイルブレイク攻撃に焦点を当てた。
imgJP (emphimage Jailbreaking Prompt) の探索手法を提案する。
提案手法は, 生成したimgJPをジェイルブレイクモデルに転送できるため, 強いモデル伝達性を示す。
論文 参考訳(メタデータ) (2024-02-04T01:29:24Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [102.17459476527233]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
これらの脆弱性を特定するために,PAIR(Prompt Automatic Iterative Refinement)を提案する。
PAIRは、LCMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。