論文の概要: Mitigating Fine-tuning Jailbreak Attack with Backdoor Enhanced Alignment
- arxiv url: http://arxiv.org/abs/2402.14968v2
- Date: Tue, 27 Feb 2024 21:27:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 17:45:01.787394
- Title: Mitigating Fine-tuning Jailbreak Attack with Backdoor Enhanced Alignment
- Title(参考訳): バックドア強化アライメントによる細調整ジェイルブレイク攻撃の軽減
- Authors: Jiongxiao Wang, Jiazhao Li, Yiquan Li, Xiangyu Qi, Junjie Hu, Yixuan
Li, Patrick McDaniel, Muhao Chen, Bo Li, Chaowei Xiao
- Abstract要約: ファインチューニングベースのジェイルブレイク攻撃(FJAttack)に対する防御のためのバックドア強化安全アライメントを提案する。
安全事例に先行する「バックドアトリガー」として,シークレットプロンプトを統合することで,プレフィックス付き安全事例を構築した。
我々の実験は、バックドア強化安全アライメント(Backdoor Enhanced Safety Alignment)により、最大11個のプレフィックス付き安全サンプルを追加することで、悪意ある微調整 LLM が元のアライメントモデルと同様の安全性性能を達成することを実証した。
- 参考スコア(独自算出の注目度): 58.07171349593672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the general capabilities of Large Language Models (LLMs) like GPT-4
and Llama-2, these models still request fine-tuning or adaptation with
customized data when it comes to meeting the specific business demands and
intricacies of tailored use cases. However, this process inevitably introduces
new safety threats, particularly against the Fine-tuning based Jailbreak Attack
(FJAttack), where incorporating just a few harmful examples into the
fine-tuning dataset can significantly compromise the model safety. Though
potential defenses have been proposed by incorporating safety examples into the
fine-tuning dataset to reduce the safety issues, such approaches require
incorporating a substantial amount of safety examples, making it inefficient.
To effectively defend against the FJAttack with limited safety examples, we
propose a Backdoor Enhanced Safety Alignment method inspired by an analogy with
the concept of backdoor attacks. In particular, we construct prefixed safety
examples by integrating a secret prompt, acting as a "backdoor trigger", that
is prefixed to safety examples. Our comprehensive experiments demonstrate that
through the Backdoor Enhanced Safety Alignment with adding as few as 11
prefixed safety examples, the maliciously fine-tuned LLMs will achieve similar
safety performance as the original aligned models. Furthermore, we also explore
the effectiveness of our method in a more practical setting where the
fine-tuning data consists of both FJAttack examples and the fine-tuning task
data. Our method shows great efficacy in defending against FJAttack without
harming the performance of fine-tuning tasks.
- Abstract(参考訳): GPT-4やLlama-2のようなLarge Language Models(LLMs)の一般的な機能にもかかわらず、これらのモデルは、特定のビジネス要求を満たすため、カスタマイズされたデータによる微調整や適応を要求する。
しかし、このプロセスは必然的に新しい安全性の脅威をもたらし、特にFJAttack(Fin-tuning based Jailbreak Attack)に対して、ファインチューニングデータセットにいくつかの有害な例を組み込むことで、モデルの安全性を著しく損なう可能性がある。
安全上の問題を軽減するために、微調整データセットに安全性サンプルを組み込むことで、潜在的な防御策が提案されているが、このようなアプローチでは相当量の安全性サンプルを組み込むことが必要となり、効率が悪くなる。
安全事例が限られているFJAttackに対して効果的に防御するために,バックドアアタックの概念に類推されたバックドア強化安全アライメント手法を提案する。
特に,安全事例に先行する「バックドアトリガー」として機能するシークレットプロンプトを統合することで,プレフィックス付き安全事例を構築した。
我々の総合的な実験は、バックドア強化安全アライメント(Backdoor Enhanced Safety Alignment)により、最大11個のプレフィックス付き安全サンプルを追加することで、悪意ある微調整 LLM が元のアライメントモデルと同様の安全性性能を達成することを実証している。
さらに,FJAttackの例と微調整タスクデータの両方からなる微調整データにより,より実用的な方法で本手法の有効性を検討する。
本手法は,FJAttackに対する防御において,微調整タスクの性能を損なうことなく有効性を示す。
関連論文リスト
- Safe Reinforcement Learning with Learned Non-Markovian Safety Constraints [15.904640266226023]
我々は、安全に関する部分的状態行動軌跡の貢献を評価するために、信用割当を行う安全モデルの設計を行う。
学習された安全モデルを用いて安全なポリシーを最適化する有効なアルゴリズムを導出する。
安全報酬と安全コンプライアンスのトレードオフ係数を動的に適用する手法を考案する。
論文 参考訳(メタデータ) (2024-05-05T17:27:22Z) - On Prompt-Driven Safeguarding for Large Language Models [178.612893285033]
モデル表現空間において、有害で有害なクエリは、大きく区別できるが、これは安全プロンプトによって顕著に強化されない。
そこで本研究では,DRO(Directed Representation Optimization)と呼ばれる自動安全プロンプト最適化手法を提案する。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z) - Can We Trust the Unlabeled Target Data? Towards Backdoor Attack and Defense on Model Adaptation [120.42853706967188]
本研究は, よく設計された毒物標的データによるモデル適応に対するバックドア攻撃の可能性を探る。
既存の適応アルゴリズムと組み合わせたMixAdaptというプラグイン・アンド・プレイ方式を提案する。
論文 参考訳(メタデータ) (2024-01-11T16:42:10Z) - Improving Few-shot Generalization of Safety Classifiers via Data
Augmented Parameter-Efficient Fine-Tuning [28.418432861091137]
テキスト安全分類器のための領域一般化型少ショット学習の新たな設定について検討する。
この設定では、既存の少数ショット技術がうまく機能しないことを示す。
本稿では,パラメータ効率のよい微調整(PEFT)と,既存のルールと同様の例に基づくトレーニングデータの統合を提案する。
論文 参考訳(メタデータ) (2023-10-25T19:57:07Z) - Fine-tuning Aligned Language Models Compromises Safety, Even When Users
Do Not Intend To! [88.90694413503614]
LLMの安全性は微調整によって損なわれる可能性がある。
我々は、GPT-3.5の安全ガードレールを10種類の例で微調整することで、脱獄した。
我々は、協調LLMのカスタム微調整のための安全プロトコルの強化に向けたさらなる研究を提唱する。
論文 参考訳(メタデータ) (2023-10-05T17:12:17Z) - Safe MDP Planning by Learning Temporal Patterns of Undesirable
Trajectories and Averting Negative Side Effects [27.41101006357176]
安全なMDP計画では、現在の状態と行動に基づくコスト関数が安全面を特定するためにしばしば使用される。
不完全なモデルに基づく操作は、しばしば意図しない負の副作用(NSE)を生じさせる
論文 参考訳(メタデータ) (2023-04-06T14:03:24Z) - FLIP: A Provable Defense Framework for Backdoor Mitigation in Federated
Learning [66.56240101249803]
我々は,クライアントの強固化がグローバルモデル(および悪意のあるクライアント)に与える影響について検討する。
本稿では, 逆エンジニアリングによる防御手法を提案するとともに, 堅牢性を保証して, 改良を実現できることを示す。
競合する8つのSOTA防御法について, 単発および連続のFLバックドア攻撃に対して, 提案手法の実証的優位性を示した。
論文 参考訳(メタデータ) (2022-10-23T22:24:03Z) - Provably Safe Reinforcement Learning via Action Projection using
Reachability Analysis and Polynomial Zonotopes [9.861651769846578]
リーチ回避タスクを解く非線形連続システムの安全シールドを開発する。
我々の手法はアクションプロジェクションと呼ばれ、混合整数最適化によって実装されている。
アクションプロジェクションの他の手法とは対照的に、我々の安全シールドは入力制約や障害物を効率的に処理できる。
論文 参考訳(メタデータ) (2022-10-19T16:06:12Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。