論文の概要: Great, Now Write an Article About That: The Crescendo Multi-Turn LLM Jailbreak Attack
- arxiv url: http://arxiv.org/abs/2404.01833v1
- Date: Tue, 2 Apr 2024 10:45:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 16:49:07.456470
- Title: Great, Now Write an Article About That: The Crescendo Multi-Turn LLM Jailbreak Attack
- Title(参考訳): 映画「Crescendo Multi-Turn LLM」のジェイルブレイク事件
- Authors: Mark Russinovich, Ahmed Salem, Ronen Eldan,
- Abstract要約: 我々は、Crescendoと呼ばれる新しいジェイルブレイク攻撃を導入する。
Crescendoはマルチターンのジェイルブレイクで、一見良心的な方法でモデルと対話する。
我々はChatGPT, Gemini Pro, Gemini-Ultra, LlaMA-2 70b Chat, Anthropic Chatなど,様々な公共システム上でのCrescendoの評価を行った。
- 参考スコア(独自算出の注目度): 5.912639903214644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have risen significantly in popularity and are increasingly being adopted across multiple applications. These LLMs are heavily aligned to resist engaging in illegal or unethical topics as a means to avoid contributing to responsible AI harms. However, a recent line of attacks, known as "jailbreaks", seek to overcome this alignment. Intuitively, jailbreak attacks aim to narrow the gap between what the model can do and what it is willing to do. In this paper, we introduce a novel jailbreak attack called Crescendo. Unlike existing jailbreak methods, Crescendo is a multi-turn jailbreak that interacts with the model in a seemingly benign manner. It begins with a general prompt or question about the task at hand and then gradually escalates the dialogue by referencing the model's replies, progressively leading to a successful jailbreak. We evaluate Crescendo on various public systems, including ChatGPT, Gemini Pro, Gemini-Ultra, LlaMA-2 70b Chat, and Anthropic Chat. Our results demonstrate the strong efficacy of Crescendo, with it achieving high attack success rates across all evaluated models and tasks. Furthermore, we introduce Crescendomation, a tool that automates the Crescendo attack, and our evaluation showcases its effectiveness against state-of-the-art models.
- Abstract(参考訳): 大規模言語モデル(LLM)は急速に人気を高め、複数のアプリケーションにまたがって採用されつつある。
これらのLSMは、責任あるAI害への貢献を避ける手段として、違法または非倫理的なトピックへの関与に強く対応している。
しかし、最近の一連の攻撃は"jailbreaks"と呼ばれ、このアライメントを克服しようと試みている。
直感的には、jailbreak攻撃は、モデルができることと、それがやろうとしていることの間のギャップを狭めることを目的としています。
本稿では,Crescendoと呼ばれる新しいジェイルブレイク攻撃について紹介する。
既存のjailbreakメソッドとは異なり、Crescendoはマルチターンのjailbreakであり、一見した方法でモデルと対話する。
これは、手元にあるタスクに関する一般的なプロンプトや質問から始まり、モデルの応答を参照して徐々に対話をエスカレートし、徐々にジェイルブレイクを成功させる。
我々はChatGPT, Gemini Pro, Gemini-Ultra, LlaMA-2 70b Chat, Anthropic Chatなど,様々な公共システム上でのCrescendoの評価を行った。
以上の結果から,Crescendoの強力な有効性を示し,すべての評価モデルとタスクに対して高い攻撃成功率を達成できた。
さらに、Crescendomationは、Crescendo攻撃を自動化するツールであり、その評価は最先端のモデルに対する効果を示す。
関連論文リスト
- Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [59.25318174362368]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。
我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。
安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文 参考訳(メタデータ) (2024-12-22T14:18:39Z) - Rapid Response: Mitigating LLM Jailbreaks with a Few Examples [13.841146655178585]
我々は,少数の攻撃を観測した後に,脱獄のクラス全体をブロックするために,迅速な応答手法を開発した。
我々は5つの迅速応答法を評価し,それぞれがジェイルブレイク増殖を利用した。
我々の最強の方法は、ジェイルブレイクの非分配セットで240以上、アウト・オブ・ディストリビューションセットで15以上、攻撃成功率で240以上削減する。
論文 参考訳(メタデータ) (2024-11-12T02:44:49Z) - IDEATOR: Jailbreaking Large Vision-Language Models Using Themselves [67.30731020715496]
ブラックボックスのジェイルブレイク攻撃に対して,悪意のある画像テキストペアを自動生成する新しいジェイルブレイク手法 IDEATOR を提案する。
IDEATORはVLMを使用して、ターゲットとなるJailbreakテキストを作成し、最先端の拡散モデルによって生成されたJailbreakイメージと組み合わせる。
平均5.34クエリでMiniGPT-4をジェイルブレイクし、LLaVA、InstructBLIP、Meta's Chameleonに転送すると82%、88%、75%という高い成功率を達成した。
論文 参考訳(メタデータ) (2024-10-29T07:15:56Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - PAPILLON: Efficient and Stealthy Fuzz Testing-Powered Jailbreaks for LLMs [33.87649859430635]
大規模言語モデル(LLM)は様々なタスクに優れていますが、それでも脱獄攻撃に対して脆弱です。
本稿では,PAPILLONと呼ばれる新しいジェイルブレイク攻撃フレームワークを紹介する。
自動化されたブラックボックスのジェイルブレイク攻撃フレームワークで、一連のカスタマイズされた設計でブラックボックスのファズテストアプローチを適用する。
論文 参考訳(メタデータ) (2024-09-23T10:03:09Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - Poisoned LangChain: Jailbreak LLMs by LangChain [9.658883589561915]
本稿では,間接的ジェイルブレイクの概念を提案し,LangChain経由でRetrieval-Augmented Generationを実現する。
我々はこの手法を,ジェイルブレイク問題の3つの主要なカテゴリにわたる6つの大言語モデルで検証した。
論文 参考訳(メタデータ) (2024-06-26T07:21:02Z) - Automatic Jailbreaking of the Text-to-Image Generative AI Systems [76.9697122883554]
本稿では,ChatGPT,Copilot,Geminiなどの商用T2I生成システムの安全性について,ナイーブプロンプトによる著作権侵害について検討する。
安全ガードをバイパスするプロンプトを生成するT2I生成システムに対して,より強力な自動脱獄パイプラインを提案する。
当社のフレームワークは,ChatGPTを11.0%のブロックレートでジェイルブレイクし,その76%で著作権コンテンツを生成する。
論文 参考訳(メタデータ) (2024-05-26T13:32:24Z) - Don't Listen To Me: Understanding and Exploring Jailbreak Prompts of Large Language Models [29.312244478583665]
生成AIは、大きな言語モデル(LLM)へのユビキタスアクセスを可能にした
脱獄プロンプトは、セキュリティ制限を回避し、本来禁止されるように設計された有害なコンテンツを引き出す最も効果的なメカニズムの1つとして現れてきた。
LLMの専門知識に関わらず、ユーザはしばしばジェイルブレイクを成功させる。
また,脱獄即時生成のプロセスを自動化するアシスタントとしてAIを用いたシステムも開発している。
論文 参考訳(メタデータ) (2024-03-26T02:47:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。