論文の概要: Mitigating Fine-tuning based Jailbreak Attack with Backdoor Enhanced Safety Alignment
- arxiv url: http://arxiv.org/abs/2402.14968v3
- Date: Thu, 20 Jun 2024 05:18:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 05:09:24.229347
- Title: Mitigating Fine-tuning based Jailbreak Attack with Backdoor Enhanced Safety Alignment
- Title(参考訳): バックドア強化安全アライメントを用いたファインチューニングによるジェイルブレイク攻撃の軽減
- Authors: Jiongxiao Wang, Jiazhao Li, Yiquan Li, Xiangyu Qi, Junjie Hu, Yixuan Li, Patrick McDaniel, Muhao Chen, Bo Li, Chaowei Xiao,
- Abstract要約: 言語モデル・アズ・ア・サービス(LM)のファインチューニングは、特にファインチューニングベースのジェイルブレイク攻撃(FJAttack)に対する新たな脅威をもたらす
本稿では,バックドア攻撃の概念と類似性から着想を得たバックドア強化安全アライメント手法を提案する。
我々の総合的な実験は、バックドア強化安全アライメント(Backdoor Enhanced Safety Alignment)を通じて、悪質に微調整されたLSMは、良質な性能を損なうことなく、オリジナルのアライメントモデルと同じような安全性性能を達成することを実証している。
- 参考スコア(独自算出の注目度): 56.2017039028998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the general capabilities of Large Language Models (LLM), these models still request fine-tuning or adaptation with customized data when meeting specific business demands. However, this process inevitably introduces new threats, particularly against the Fine-tuning based Jailbreak Attack (FJAttack) under the setting of Language-Model-as-a-Service (LMaaS), where the model's safety has been significantly compromised by fine-tuning users' uploaded examples contain just a few harmful examples. Though potential defenses have been proposed that the service providers can integrate safety examples into the fine-tuning dataset to reduce safety issues, such approaches require incorporating a substantial amount of data, making it inefficient. To effectively defend against the FJAttack with limited safety examples under LMaaS, we propose the Backdoor Enhanced Safety Alignment method inspired by an analogy with the concept of backdoor attacks. In particular, service providers will construct prefixed safety examples with a secret prompt, acting as a "backdoor trigger". By integrating prefixed safety examples into the fine-tuning dataset, the subsequent fine-tuning process effectively acts as the "backdoor attack", establishing a strong correlation between the secret prompt and safety generations. Consequently, safe responses are ensured once service providers prepend this secret prompt ahead of any user input during inference. Our comprehensive experiments demonstrate that through the Backdoor Enhanced Safety Alignment with adding as few as 11 prefixed safety examples, the maliciously fine-tuned LLMs will achieve similar safety performance as the original aligned models without harming the benign performance. Furthermore, we also present the effectiveness of our method in a more practical setting where the fine-tuning data consists of both FJAttack examples and the fine-tuning task data.
- Abstract(参考訳): LLM(Large Language Models)の一般的な機能にもかかわらず、これらのモデルは、特定のビジネス要求を満たす際に、カスタマイズされたデータによる微調整や適応を要求する。
しかし、このプロセスは必然的に新しい脅威をもたらし、特にLanguage-Model-as-a-Service(LMaaS)の設定下でのFJAttack(FJAttack)に対して、微調整されたユーザのアップロード例によってモデルの安全性が著しく損なわれている。
潜在的な防衛策が提案されているが、サービスプロバイダは安全性の問題を減らすために、微調整データセットに安全性サンプルを統合できるが、そのようなアプローチには大量のデータを統合する必要があるため、非効率である。
LMaaSの安全事例を限定してFJAttackを効果的に防御するために,バックドアアタックの概念に類推されたバックドア強化安全アライメント手法を提案する。
特に、サービスプロバイダは、"バックドアトリガ"として機能するシークレットプロンプトで、プレフィックス付きの安全例を構築する。
プレフィックス付き安全サンプルを微調整データセットに統合することにより、その後の微調整プロセスは事実上"バックドアアタック"として機能し、シークレットプロンプトと安全世代の間に強い相関関係を確立する。
その結果、安全な応答は、サービスプロバイダがこのシークレットプロンプトを推論中にユーザ入力よりも先にプリペイトすれば保証される。
我々の総合的な実験は、バックドア強化安全アライメント(Backdoor Enhanced Safety Alignment)を通じて、悪質に微調整されたLSMは、良質な性能を損なうことなく、元のアライメントモデルと同様の安全性性能を達成することを実証している。
さらに、FJAttackの例と微調整タスクデータの両方からなる微調整データにより、より実践的な環境で本手法の有効性を示す。
関連論文リスト
- Locking Down the Finetuned LLMs Safety [33.56657036839617]
特定の下流タスクのために最適化するためには、追加のデータセット上での微調整大型言語モデル(LLM)が必要であることが多い。
既存の安全アライメント対策は、推論中の有害な行動を制限するものであり、微調整時の安全性リスクを軽減するには不十分である。
そこで,本研究では,手直し後の堅牢な安全性を維持する新しいアライメント介入手法であるSafetyLockを紹介する。
論文 参考訳(メタデータ) (2024-10-14T09:58:29Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Covert Malicious Finetuning: Challenges in Safeguarding LLM Adaptation [86.05704141217036]
Black-boxファインタニングは、最先端の言語モデルをユーザのニーズに適応するための、新たなインターフェースである。
本研究では,検出を回避しながら,モデル安全性を損なう手法である隠れ悪意のある微調整を導入する。
論文 参考訳(メタデータ) (2024-06-28T17:05:46Z) - SafeAligner: Safety Alignment against Jailbreak Attacks via Response Disparity Guidance [48.80398992974831]
SafeAlignerは、ジェイルブレイク攻撃に対する防御を強化するためのデコード段階で実装された方法論である。
安全性を高めるために訓練されたセンチネルモデルと、よりリスクの高い応答を生成するように設計されたイントルーダモデルである。
SafeAlignerは有害なトークンの発生を低減しつつ、有益トークンの可能性を高めることができることを示す。
論文 参考訳(メタデータ) (2024-06-26T07:15:44Z) - Fine-tuning Aligned Language Models Compromises Safety, Even When Users
Do Not Intend To! [88.90694413503614]
LLMの安全性は微調整によって損なわれる可能性がある。
我々は、GPT-3.5の安全ガードレールを10種類の例で微調整することで、脱獄した。
我々は、協調LLMのカスタム微調整のための安全プロトコルの強化に向けたさらなる研究を提唱する。
論文 参考訳(メタデータ) (2023-10-05T17:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。