論文の概要: Mitigating Fine-tuning Jailbreak Attack with Backdoor Enhanced Alignment
- arxiv url: http://arxiv.org/abs/2402.14968v1
- Date: Thu, 22 Feb 2024 21:05:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 16:31:52.564487
- Title: Mitigating Fine-tuning Jailbreak Attack with Backdoor Enhanced Alignment
- Title(参考訳): バックドア強化アライメントによる細調整ジェイルブレイク攻撃の軽減
- Authors: Jiongxiao Wang, Jiazhao Li, Yiquan Li, Xiangyu Qi, Muhao Chen, Junjie
Hu, Yixuan Li, Bo Li, Chaowei Xiao
- Abstract要約: ファインチューニングベースのジェイルブレイク攻撃(FJAttack)に対する防御のためのバックドア強化安全アライメントを提案する。
安全事例に先行する「バックドアトリガー」として,シークレットプロンプトを統合することで,プレフィックス付き安全事例を構築した。
我々の実験は、バックドア強化安全アライメント(Backdoor Enhanced Safety Alignment)により、最大11個のプレフィックス付き安全サンプルを追加することで、悪意ある微調整 LLM が元のアライメントモデルと同様の安全性性能を達成することを実証した。
- 参考スコア(独自算出の注目度): 60.255551544585536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the general capabilities of Large Language Models (LLMs) like GPT-4
and Llama-2, these models still request fine-tuning or adaptation with
customized data when it comes to meeting the specific business demands and
intricacies of tailored use cases. However, this process inevitably introduces
new safety threats, particularly against the Fine-tuning based Jailbreak Attack
(FJAttack), where incorporating just a few harmful examples into the
fine-tuning dataset can significantly compromise the model safety. Though
potential defenses have been proposed by incorporating safety examples into the
fine-tuning dataset to reduce the safety issues, such approaches require
incorporating a substantial amount of safety examples, making it inefficient.
To effectively defend against the FJAttack with limited safety examples, we
propose a Backdoor Enhanced Safety Alignment method inspired by an analogy with
the concept of backdoor attacks. In particular, we construct prefixed safety
examples by integrating a secret prompt, acting as a "backdoor trigger", that
is prefixed to safety examples. Our comprehensive experiments demonstrate that
through the Backdoor Enhanced Safety Alignment with adding as few as 11
prefixed safety examples, the maliciously fine-tuned LLMs will achieve similar
safety performance as the original aligned models. Furthermore, we also explore
the effectiveness of our method in a more practical setting where the
fine-tuning data consists of both FJAttack examples and the fine-tuning task
data. Our method shows great efficacy in defending against FJAttack without
harming the performance of fine-tuning tasks.
- Abstract(参考訳): GPT-4やLlama-2のようなLarge Language Models(LLMs)の一般的な機能にもかかわらず、これらのモデルは、特定のビジネス要求を満たすため、カスタマイズされたデータによる微調整や適応を要求する。
しかし、このプロセスは必然的に新しい安全性の脅威をもたらし、特にFJAttack(Fin-tuning based Jailbreak Attack)に対して、ファインチューニングデータセットにいくつかの有害な例を組み込むことで、モデルの安全性を著しく損なう可能性がある。
安全上の問題を軽減するために、微調整データセットに安全性サンプルを組み込むことで、潜在的な防御策が提案されているが、このようなアプローチでは相当量の安全性サンプルを組み込むことが必要となり、効率が悪くなる。
安全事例が限られているFJAttackに対して効果的に防御するために,バックドアアタックの概念に類推されたバックドア強化安全アライメント手法を提案する。
特に,安全事例に先行する「バックドアトリガー」として機能するシークレットプロンプトを統合することで,プレフィックス付き安全事例を構築した。
我々の総合的な実験は、バックドア強化安全アライメント(Backdoor Enhanced Safety Alignment)により、最大11個のプレフィックス付き安全サンプルを追加することで、悪意ある微調整 LLM が元のアライメントモデルと同様の安全性性能を達成することを実証している。
さらに,FJAttackの例と微調整タスクデータの両方からなる微調整データにより,より実用的な方法で本手法の有効性を検討する。
本手法は,FJAttackに対する防御において,微調整タスクの性能を損なうことなく有効性を示す。
関連論文リスト
- Locking Down the Finetuned LLMs Safety [33.56657036839617]
特定の下流タスクのために最適化するためには、追加のデータセット上での微調整大型言語モデル(LLM)が必要であることが多い。
既存の安全アライメント対策は、推論中の有害な行動を制限するものであり、微調整時の安全性リスクを軽減するには不十分である。
そこで,本研究では,手直し後の堅牢な安全性を維持する新しいアライメント介入手法であるSafetyLockを紹介する。
論文 参考訳(メタデータ) (2024-10-14T09:58:29Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Covert Malicious Finetuning: Challenges in Safeguarding LLM Adaptation [86.05704141217036]
Black-boxファインタニングは、最先端の言語モデルをユーザのニーズに適応するための、新たなインターフェースである。
本研究では,検出を回避しながら,モデル安全性を損なう手法である隠れ悪意のある微調整を導入する。
論文 参考訳(メタデータ) (2024-06-28T17:05:46Z) - SafeAligner: Safety Alignment against Jailbreak Attacks via Response Disparity Guidance [48.80398992974831]
SafeAlignerは、ジェイルブレイク攻撃に対する防御を強化するためのデコード段階で実装された方法論である。
安全性を高めるために訓練されたセンチネルモデルと、よりリスクの高い応答を生成するように設計されたイントルーダモデルである。
SafeAlignerは有害なトークンの発生を低減しつつ、有益トークンの可能性を高めることができることを示す。
論文 参考訳(メタデータ) (2024-06-26T07:15:44Z) - Fine-tuning Aligned Language Models Compromises Safety, Even When Users
Do Not Intend To! [88.90694413503614]
LLMの安全性は微調整によって損なわれる可能性がある。
我々は、GPT-3.5の安全ガードレールを10種類の例で微調整することで、脱獄した。
我々は、協調LLMのカスタム微調整のための安全プロトコルの強化に向けたさらなる研究を提唱する。
論文 参考訳(メタデータ) (2023-10-05T17:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。