論文の概要: RED QUEEN: Safeguarding Large Language Models against Concealed
Multi-Turn Jailbreaking
- arxiv url: http://arxiv.org/abs/2409.17458v1
- Date: Thu, 26 Sep 2024 01:24:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 23:40:01.059171
- Title: RED QUEEN: Safeguarding Large Language Models against Concealed
Multi-Turn Jailbreaking
- Title(参考訳): RED QUEEN: 大規模言語モデルとConcealedの保護
マルチターンジェイルブレイク
- Authors: Yifan Jiang, Kriti Aggarwal, Tanmay Laud, Kashif Munir, Jay Pujara,
Subhabrata Mukherjee
- Abstract要約: 我々は,害の防止という目的の下に悪意のある意図を隠蔽し,マルチターンシナリオを構築する新しいジェイルブレイク手法RED QUEEN ATTACKを提案する。
我々の実験によると、全てのLLMはRED QUEEN ATTACKに対して脆弱であり、GPT-4oで87.62%、Llama3-70Bで75.4%に達する。
安全を優先するために, RED QUEEN GUARDと呼ばれる簡単な緩和戦略を導入する。
- 参考スコア(独自算出の注目度): 30.67803190789498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid progress of Large Language Models (LLMs) has opened up new
opportunities across various domains and applications; yet it also presents
challenges related to potential misuse. To mitigate such risks, red teaming has
been employed as a proactive security measure to probe language models for
harmful outputs via jailbreak attacks. However, current jailbreak attack
approaches are single-turn with explicit malicious queries that do not fully
capture the complexity of real-world interactions. In reality, users can engage
in multi-turn interactions with LLM-based chat assistants, allowing them to
conceal their true intentions in a more covert manner. To bridge this gap, we,
first, propose a new jailbreak approach, RED QUEEN ATTACK. This method
constructs a multi-turn scenario, concealing the malicious intent under the
guise of preventing harm. We craft 40 scenarios that vary in turns and select
14 harmful categories to generate 56k multi-turn attack data points. We conduct
comprehensive experiments on the RED QUEEN ATTACK with four representative LLM
families of different sizes. Our experiments reveal that all LLMs are
vulnerable to RED QUEEN ATTACK, reaching 87.62% attack success rate on GPT-4o
and 75.4% on Llama3-70B. Further analysis reveals that larger models are more
susceptible to the RED QUEEN ATTACK, with multi-turn structures and concealment
strategies contributing to its success. To prioritize safety, we introduce a
straightforward mitigation strategy called RED QUEEN GUARD, which aligns LLMs
to effectively counter adversarial attacks. This approach reduces the attack
success rate to below 1% while maintaining the model's performance across
standard benchmarks. Full implementation and dataset are publicly accessible at
https://github.com/kriti-hippo/red_queen.
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩は、さまざまなドメインやアプリケーションにまたがる新たな機会を広げている。
このようなリスクを軽減するため、レッド・チームリングは、ジェイルブレイク攻撃による有害なアウトプットのための言語モデルを探索するための積極的なセキュリティ対策として採用されている。
しかし、現在のjailbreak攻撃アプローチは、現実世界のインタラクションの複雑さを完全に捉えない、明示的な悪意のあるクエリを持つシングルターンである。
実際には、ユーザーはLLMベースのチャットアシスタントとマルチターンインタラクションをすることで、より隠蔽的な方法で真の意図を隠蔽することができる。
このギャップを埋めるために、私たちはまず、新しいジェイルブレイクアプローチRED QUEEN ATTACKを提案します。
この方法は多ターンシナリオを構築し、害を防ぎつつ悪意のある意図を隠蔽する。
順番に変化する40のシナリオを作成し、14の有害なカテゴリを選択して56kのマルチターン攻撃データポイントを生成します。
RED QUEEN ATTACKにおいて,異なる大きさの4種類のLLMファミリーを用いて包括的実験を行った。
我々の実験によると、全てのLLMはRED QUEEN ATTACKに対して脆弱であり、GPT-4oで87.62%、Llama3-70Bで75.4%に達する。
さらなる分析により、より大きなモデルはRED QUEEN ATTACKより感受性が高く、マルチターン構造と隠蔽戦略がその成功に寄与していることが明らかになった。
安全を優先するために, RED QUEEN GUARDと呼ばれる簡単な緩和戦略を導入する。
このアプローチは、標準的なベンチマークでモデルのパフォーマンスを維持しながら、攻撃成功率を1%以下に下げる。
完全な実装とデータセットはhttps://github.com/kriti-hippo/red_queen.comで公開されている。
関連論文リスト
- DROJ: A Prompt-Driven Attack against Large Language Models [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる例外的な機能を示している。
大規模なアライメント努力にもかかわらず、LLMは相変わらず敵の脱獄攻撃を受けやすいままである。
我々はDROJ(Directed Rrepresentation Optimization Jailbreak)という新しいアプローチを導入する。
論文 参考訳(メタデータ) (2024-11-14T01:48:08Z) - Jigsaw Puzzles: Splitting Harmful Questions to Jailbreak Large Language Models [50.89022445197919]
大規模言語モデル(LLM)は、人間との関わりにおいて卓越した性能を示した。
LLMは脱獄攻撃に弱いため、有害な反応が生じる。
我々は,高度LLMに対する単純かつ効果的なマルチターンジェイルブレイク戦略であるJigsaw Puzzles (JSP)を提案する。
論文 参考訳(メタデータ) (2024-10-15T10:07:15Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - PAL: Proxy-Guided Black-Box Attack on Large Language Models [55.57987172146731]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を示している。
PAL(Proxy-Guided Attack on LLMs)は, ブラックボックスクエリのみの設定で, LLMに対する最初の最適化ベースの攻撃である。
GPT-3.5-Turboの攻撃成功率は84%,Llama-2-7Bの攻撃成功率は48%であった。
論文 参考訳(メタデータ) (2024-02-15T02:54:49Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。