論文の概要: Safe Unlearning: A Surprisingly Effective and Generalizable Solution to Defend Against Jailbreak Attacks
- arxiv url: http://arxiv.org/abs/2407.02855v2
- Date: Tue, 05 Nov 2024 02:30:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 14:57:39.508663
- Title: Safe Unlearning: A Surprisingly Effective and Generalizable Solution to Defend Against Jailbreak Attacks
- Title(参考訳): 安全なアンラーニング: ジェイルブレイク攻撃を防御するための、驚くほど効果的で一般化可能なソリューション
- Authors: Zhexin Zhang, Junxiao Yang, Pei Ke, Shiyao Cui, Chujie Zheng, Hongning Wang, Minlie Huang,
- Abstract要約: 我々は、LLMの有害な知識を直接解き放つことは、脱獄攻撃から守るためのより効果的な方法になり得ると推測する。
Vicuna-7Bの攻撃成功率(ASR)は82.6%から7.7%に低下した。
Llama2-7B-Chatは、約0.1Mの安全アライメントサンプルで微調整されているが、追加の安全システムプロンプトの下でも21.9%のASRを持つ。
- 参考スコア(独自算出の注目度): 89.54736699767315
- License:
- Abstract: LLMs are known to be vulnerable to jailbreak attacks, even after safety alignment. An important observation is that, while different types of jailbreak attacks can generate significantly different queries, they mostly result in similar responses that are rooted in the same harmful knowledge (e.g., detailed steps to make a bomb). Therefore, we conjecture that directly unlearn the harmful knowledge in the LLM can be a more effective way to defend against jailbreak attacks than the mainstream supervised fine-tuning (SFT) approaches. Our extensive experiments demonstrate the surprising generalizability of our unlearning-based approach: using only 20 raw harmful questions without any jailbreak prompt during training, our solution reduced the Attack Success Rate (ASR) in Vicuna-7B from 82.6% to 7.7% on out-of-distribution (OOD) harmful questions wrapped with various complex jailbreak prompts . This significantly outperforms Llama2-7B-Chat, which is fine-tuned on about 0.1M safety alignment samples but still has an ASR of 21.9% even under the help of an additional safety system prompt. Further analysis reveals that the generalization ability of our solution may stem from the intrinsic relatedness among harmful responses across harmful questions (e.g., response patterns, shared steps and actions in response, and similarity among their learned representations in the LLM). Our code is available at \url{https://github.com/thu-coai/SafeUnlearning}.
- Abstract(参考訳): LLMは安全アライメントの後にも、ジェイルブレイク攻撃に弱いことが知られている。
重要な観察は、異なるタイプのジェイルブレイク攻撃は、かなり異なるクエリを生成することができるが、ほとんどは同じ有害な知識(例えば、爆弾を作るための詳細な手順)に根ざした同様の反応をもたらすことである。
したがって, LLMにおける有害な知識を直接解き放つことは, 主流の監督的微調整(SFT)アプローチよりも, ジェイルブレイク攻撃に対する防御に有効な方法であると推測する。
Vicuna-7Bの攻撃成功率(ASR)を82.6%から7.7%に下げ、複雑なジェイルブレイクプロンプトでラップした有害な質問(OOD)を7.7%に減らしました。
Llama2-7B-Chatは、約0.1Mの安全アライメントサンプルで微調整されているが、追加の安全システムプロンプトの下でも21.9%のASRを持つ。
さらに,本手法の一般化能力は,有害な質問に対する有害な応答の内在的関連性(例えば,応答パターン,応答における共有ステップと行動,LLMにおける学習表現間の類似性)から生じる可能性が示唆された。
私たちのコードは \url{https://github.com/thu-coai/SafeUnlearning} で利用可能です。
関連論文リスト
- Speak Easy: Eliciting Harmful Jailbreaks from LLMs with Simple Interactions [11.32190215797298]
大規模言語モデル(LLM)は、有害な行動を引き起こすジェイルブレイク攻撃に対して脆弱なままである。
悪意のあるユーザは、有害な意図のために、共通のインタラクションパターンを簡単に活用することができます。
論文 参考訳(メタデータ) (2025-02-06T18:59:02Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [59.25318174362368]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。
我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。
安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文 参考訳(メタデータ) (2024-12-22T14:18:39Z) - Jigsaw Puzzles: Splitting Harmful Questions to Jailbreak Large Language Models [50.89022445197919]
大規模言語モデル(LLM)は、人間との関わりにおいて卓越した性能を示した。
LLMは脱獄攻撃に弱いため、有害な反応が生じる。
我々は,高度LLMに対する単純かつ効果的なマルチターンジェイルブレイク戦略であるJigsaw Puzzles (JSP)を提案する。
論文 参考訳(メタデータ) (2024-10-15T10:07:15Z) - WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models [66.34505141027624]
我々は、WildTeamingを紹介した。これは自動LLM安全リチームフレームワークで、Wild-Chatbotインタラクションをマイニングし、新しいジェイルブレイク戦術の5.7Kのユニークなクラスタを発見する。
WildTeamingは、未確認のフロンティアLSMの脆弱性を明らかにし、最大4.6倍の多様性と敵の攻撃に成功した。
論文 参考訳(メタデータ) (2024-06-26T17:31:22Z) - Defending Large Language Models Against Jailbreaking Attacks Through Goal Prioritization [98.18718484152595]
本研究は,学習段階と推論段階の両方において,目標の優先順位付けを統合することで,支援と安全性の確保という目標との本質的な対立に対処することを提案する。
我々の研究は、脱獄攻撃と防衛の理解に寄与し、LLMの能力と安全性の関係に光を当てている。
論文 参考訳(メタデータ) (2023-11-15T16:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。