論文の概要: Antidote: Post-fine-tuning Safety Alignment for Large Language Models against Harmful Fine-tuning
- arxiv url: http://arxiv.org/abs/2408.09600v1
- Date: Sun, 18 Aug 2024 21:45:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 18:03:47.229594
- Title: Antidote: Post-fine-tuning Safety Alignment for Large Language Models against Harmful Fine-tuning
- Title(参考訳): Antidote: 有害な微調整に対する大規模言語モデルの修正後の安全性アライメント
- Authors: Tiansheng Huang, Gautam Bhattacharya, Pratik Joshi, Josh Kimball, Ling Liu,
- Abstract要約: 大規模言語モデル(LLM)は、害のある微調整攻撃(citeqi2023fine)に対して脆弱である。
既存の緩和戦略には、アライメントステージソリューション citehuang2024vaccine、rosati2024representation、微調整ステージソリューション citehuang2024lazy、mukhoti2023fineが含まれる。
我々は,テキストに非依存なポストファインニングステージソリューションであるAntidoteを提案する。
- 参考スコア(独自算出の注目度): 7.9447287301860445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety aligned Large Language Models (LLMs) are vulnerable to harmful fine-tuning attacks \cite{qi2023fine}-- a few harmful data mixed in the fine-tuning dataset can break the LLMs's safety alignment. Existing mitigation strategies include alignment stage solutions \cite{huang2024vaccine, rosati2024representation} and fine-tuning stage solutions \cite{huang2024lazy,mukhoti2023fine}. However, our evaluation shows that both categories of defenses fail \textit{when some specific training hyper-parameters are chosen} -- a large learning rate or a large number of training epochs in the fine-tuning stage can easily invalidate the defense, which however, is necessary to guarantee finetune performance. To this end, we propose Antidote, a post-fine-tuning stage solution, which remains \textbf{\textit{agnostic to the training hyper-parameters in the fine-tuning stage}}. Antidote relies on the philosophy that by removing the harmful parameters, the harmful model can be recovered from the harmful behaviors, regardless of how those harmful parameters are formed in the fine-tuning stage. With this philosophy, we introduce a one-shot pruning stage after harmful fine-tuning to remove the harmful weights that are responsible for the generation of harmful content. Despite its embarrassing simplicity, empirical results show that Antidote can reduce harmful score while maintaining accuracy on downstream tasks.
- Abstract(参考訳): 安全性に配慮した大規模言語モデル(LLM)は、有害な微調整攻撃に対して脆弱である。
既存の緩和策としては、アライメントステージ解 \cite{huang2024vaccine, rosati2024representation} と微調整ステージ解 \cite{huang2024lazy,mukhoti2023fine} がある。
しかし, 評価の結果, 両ディフェンスのカテゴリは, 特定のトレーニングハイパーパラメータが選択された場合にフェールすることが明らかとなった。
この目的のために, 微調整後の段階解であるAntidoteを提案する。
解毒剤は、有害なパラメータを除去することで、有害なパラメータが微調整の段階でどのように形成されるかに関わらず、有害な振る舞いから有害なモデルを取り戻すことができるという哲学に依存している。
本哲学では,有害物質の発生の原因となる有害重量を除去するために,有害微調整後のワンショットプルーニングステージを導入する。
その恥ずかしい単純さにもかかわらず、実証的な結果は、アンティドテは下流のタスクの精度を維持しながら有害なスコアを減らすことができることを示している。
関連論文リスト
- CleanerCLIP: Fine-grained Counterfactual Semantic Augmentation for Backdoor Defense in Contrastive Learning [53.766434746801366]
バックドアトリガの特徴的接続を遮断するための細粒な textbfText textbfAlignment textbfCleaner (TA-Cleaner) を提案する。
TA-Cleanerは、ファインタニングベースの防御技術の中で最先端の防御性を達成している。
論文 参考訳(メタデータ) (2024-09-26T07:35:23Z) - Booster: Tackling Harmful Fine-tuning for Large Language Models via Attenuating Harmful Perturbation [7.945893812374361]
有害な微調整問題 citepqi2023fineは、大規模言語モデルの微細チューニング・アズ・ア・サービスに対して深刻な安全性上の懸念をもたらす。
本稿では,この問題を軽減するために,Boosterと呼ばれるアライメントステージソリューションを提案する。
論文 参考訳(メタデータ) (2024-09-03T03:59:22Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Covert Malicious Finetuning: Challenges in Safeguarding LLM Adaptation [86.05704141217036]
Black-boxファインタニングは、最先端の言語モデルをユーザのニーズに適応するための、新たなインターフェースである。
本研究では,検出を回避しながら,モデル安全性を損なう手法である隠れ悪意のある微調整を導入する。
論文 参考訳(メタデータ) (2024-06-28T17:05:46Z) - Representation Noising: A Defence Mechanism Against Harmful Finetuning [28.451676139178687]
オープンソースの大規模言語モデル(LLM)のリースは、悪質なアクターがこれらのモデルを有害な目的のために簡単に微調整できるため、デュアルユースリスクをもたらす。
本稿では,攻撃者が重みにアクセスできる場合でも,防御機構であるRepresentation Noising(RepNoise)を提案する。
論文 参考訳(メタデータ) (2024-05-23T13:51:55Z) - Immunization against harmful fine-tuning attacks [21.97813820548174]
大きな言語モデル(LLM)は、有害なテキスト生成を防ぐための安全ガードで訓練されることが多い。
しかし、有害なデータセット上でLLMを微調整することで、そのような安全トレーニングを除去することができる。
我々は「免疫」条件と呼ばれる攻撃者の訓練予算に基づく正式な枠組みを導入する。
論文 参考訳(メタデータ) (2024-02-26T08:08:03Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z) - Vaccine: Perturbation-aware Alignment for Large Language Models against Harmful Fine-tuning Attack [7.653580388741887]
ユーザがアップロードした有害なデータのいくつかは、微調整を簡単に騙してアライメントが壊れたモデルを生成することができる。
本稿では,ユーザが微調整を行う際のセキュリティリスクを軽減するために,摂動を考慮したアライメント手法であるVaccineを提案する。
論文 参考訳(メタデータ) (2024-02-02T02:56:50Z) - Stealthy and Persistent Unalignment on Large Language Models via Backdoor Injections [17.49244337226907]
バックドアインジェクションにより,大規模言語モデルに対してステルスと永続的不整合を行うことが可能であることを示す。
提案したステルスと持続的不整合は、再整合防御に対する強い持続性を維持しつつ、安全性評価に合格することができる。
論文 参考訳(メタデータ) (2023-11-15T23:52:05Z) - Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models [102.63973600144308]
オープンソースの大規模言語モデルは、有害なコンテンツを生成するために容易に変換できる。
5つの異なる組織がリリースした8つのモデルに対する実験は、シャドーアライメントアタックの有効性を実証している。
この研究は、悪意のある攻撃者に対するオープンソースのLLMの安全性を見直し、強化するための集団的な取り組みの発端となる。
論文 参考訳(メタデータ) (2023-10-04T16:39:31Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。