論文の概要: Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models
- arxiv url: http://arxiv.org/abs/2412.17034v1
- Date: Sun, 22 Dec 2024 14:18:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:59:45.473373
- Title: Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models
- Title(参考訳): 安全境界の形成:大規模言語モデルにおけるジェイルブレイクの理解と予防
- Authors: Lang Gao, Xiangliang Zhang, Preslav Nakov, Xiuying Chen,
- Abstract要約: 大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。
我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。
安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
- 参考スコア(独自算出の注目度): 59.25318174362368
- License:
- Abstract: Jailbreaking in Large Language Models (LLMs) is a major security concern as it can deceive LLMs to generate harmful text. Yet, there is still insufficient understanding of how jailbreaking works, which makes it hard to develop effective defense strategies. We aim to shed more light into this issue: we conduct a detailed large-scale analysis of seven different jailbreak methods and find that these disagreements stem from insufficient observation samples. In particular, we introduce \textit{safety boundary}, and we find that jailbreaks shift harmful activations outside that safety boundary, where LLMs are less sensitive to harmful information. We also find that the low and the middle layers are critical in such shifts, while deeper layers have less impact. Leveraging on these insights, we propose a novel defense called \textbf{Activation Boundary Defense} (ABD), which adaptively constrains the activations within the safety boundary. We further use Bayesian optimization to selectively apply the defense method to the low and the middle layers. Our experiments on several benchmarks show that ABD achieves an average DSR of over 98\% against various forms of jailbreak attacks, with less than 2\% impact on the model's general capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)におけるジェイルブレイクは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。
しかし、脱獄の仕組みについてはまだ理解されていないため、効果的な防衛戦略の開発は困難である。
我々は7つの異なるジェイルブレイク法を詳細に分析し、これらの相違点が不十分な観察サンプルに起因することを発見した。
特に、textit{safety boundary}を導入し、LLMが有害情報に敏感でない場合、ジェイルブレイクが安全境界の外で有害なアクティベーションをシフトすることを発見した。
また、低い層と中間層はそのようなシフトにおいて重要であり、深い層は影響が少ないこともわかりました。
これらの知見を生かして、安全境界内での活性化を適応的に抑制する「textbf{Activation Boundary Defense} (ABD)」という新しい防衛法を提案する。
さらにベイズ最適化を用いて, 防御法を低層および中層に選択的に適用する。
いくつかのベンチマークで実験したところ、ABDは、様々な種類のジェイルブレイク攻撃に対して平均98%以上のDSRを達成でき、モデルの汎用能力に2倍未満の影響を及ぼすことがわかった。
関連論文リスト
- CCJA: Context-Coherent Jailbreak Attack for Aligned Large Language Models [18.06388944779541]
ジェイルブレイク(jailbreaking)とは、意図しない振る舞いをトリガーする大きな言語モデルである。
本稿では,ジェイルブレイク攻撃の成功率とセマンティック・コヒーレンスとのバランスをとる新しい手法を提案する。
本手法は攻撃効率において最先端のベースラインよりも優れている。
論文 参考訳(メタデータ) (2025-02-17T02:49:26Z) - xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment [97.38766396447369]
訓練時安全アライメントにもかかわらず、MLLMは脱獄攻撃に弱いままである。
我々は、安全な報酬モデルを利用してジェイルブレイク攻撃を防御する推論時防衛フレームワークImmuneを提案する。
論文 参考訳(メタデータ) (2024-11-27T19:00:10Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - HSF: Defending against Jailbreak Attacks with Hidden State Filtering [14.031010511732008]
隠れ状態フィルタ(HSF)に基づくジェイルブレイク攻撃防御戦略を提案する。
HSFは、推論プロセスが始まる前に、モデルが相手の入力をプリエンプティブに識別し、拒否することを可能にする。
不正なユーザクエリに対する応答を最小限に抑えながら、Jailbreak攻撃の成功率を大幅に低下させる。
論文 参考訳(メタデータ) (2024-08-31T06:50:07Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。