論文の概要: Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks
- arxiv url: http://arxiv.org/abs/2405.20099v1
- Date: Thu, 30 May 2024 14:40:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 13:58:47.052613
- Title: Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks
- Title(参考訳): ジェイルブレイク攻撃に対するLLMのロバストかつ解釈可能な防御策
- Authors: Chen Xiong, Xiangyu Qi, Pin-Yu Chen, Tsung-Yi Ho,
- Abstract要約: 本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
- 参考スコア(独自算出の注目度): 59.46556573924901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety, security, and compliance are essential requirements when aligning large language models (LLMs). However, many seemingly aligned LLMs are soon shown to be susceptible to jailbreak attacks. These attacks aim to circumvent the models' safety guardrails and security mechanisms by introducing jailbreak prompts into malicious queries. In response to these challenges, this paper introduces Defensive Prompt Patch (DPP), a novel prompt-based defense mechanism specifically designed to protect LLMs against such sophisticated jailbreak strategies. Unlike previous approaches, which have often compromised the utility of the model for the sake of safety, DPP is designed to achieve a minimal Attack Success Rate (ASR) while preserving the high utility of LLMs. Our method uses strategically designed interpretable suffix prompts that effectively thwart a wide range of standard and adaptive jailbreak techniques. Empirical results conducted on LLAMA-2-7B-Chat and Mistral-7B-Instruct-v0.2 models demonstrate the robustness and adaptability of DPP, showing significant reductions in ASR with negligible impact on utility. Our approach not only outperforms existing defense strategies in balancing safety and functionality, but also provides a scalable and interpretable solution applicable to various LLM platforms.
- Abstract(参考訳): 安全性、セキュリティ、コンプライアンスは、大きな言語モデル(LLM)を調整する上で必須の要件である。
しかし、一見整列したLSMの多くは、すぐにジェイルブレイク攻撃の影響を受けやすいことが示されている。
これらの攻撃は、悪意のあるクエリにjailbreakプロンプトを導入することによって、モデルの安全ガードレールとセキュリティメカニズムを回避することを目的としている。
これらの課題に対応するために,本論文では,LDMをこのような高度なジェイルブレイク戦略から守るために設計された,新しいプロンプトベースの防御機構であるDPPを導入する。
安全のためにしばしばモデルの有用性を損なう従来のアプローチとは異なり、DPPはLLMの高機能を維持しながら最小の攻撃成功率(ASR)を達成するように設計されている。
提案手法は戦略的に設計された解釈可能な接尾辞プロンプトを用いて,幅広い標準および適応ジェイルブレイクテクニックを効果的に抑制する。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルで実施された実験結果から,DSPの堅牢性と適応性が確認された。
我々のアプローチは、安全性と機能のバランスをとる既存の防衛戦略を上回るだけでなく、様々なLLMプラットフォームに適用可能なスケーラブルで解釈可能なソリューションも提供します。
関連論文リスト
- AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing [14.094372002702476]
大規模言語モデル(LLM)は、広範囲の現実世界のアプリケーションで採用されつつある。
近年の研究では、LSMは故意に構築された敵のプロンプトに弱いことが示されている。
そこで本研究では,新しい防衛手法である textbfLayer-specific textbfEditing (LED) を提案する。
論文 参考訳(メタデータ) (2024-05-28T13:26:12Z) - Protecting Your LLMs with Information Bottleneck [20.870610473199125]
本稿では,情報ボトルネック原理に基づく防御機構であるIBProtector(Information Bottleneck Protector)を紹介する。
IBProtectorは、軽量で訓練可能な抽出器によって促進されるプロンプトを選択的に圧縮し、摂動する。
IBProtectorはジェイルブレイク対策において,現在の防御方法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-22T08:16:07Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - Open the Pandora's Box of LLMs: Jailbreaking LLMs through Representation
Engineering [44.10397472780012]
Representation Engineering (JRE) による Jailbreaking LLMs という新しいjailbreakingアプローチを提案する。
本手法では,対象モデルの防御を回避できる「安全パターン」を抽出するために,少数のクエリペアしか必要としない。
また、これらの知見に基づいて、JRE原則に着想を得た新しい防御フレームワークを導入し、顕著な効果を示した。
論文 参考訳(メタデータ) (2024-01-12T00:50:04Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。