論文の概要: Antidote: Post-fine-tuning Safety Alignment for Large Language Models against Harmful Fine-tuning
- arxiv url: http://arxiv.org/abs/2408.09600v1
- Date: Sun, 18 Aug 2024 21:45:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 18:03:47.229594
- Title: Antidote: Post-fine-tuning Safety Alignment for Large Language Models against Harmful Fine-tuning
- Title(参考訳): Antidote: 有害な微調整に対する大規模言語モデルの修正後の安全性アライメント
- Authors: Tiansheng Huang, Gautam Bhattacharya, Pratik Joshi, Josh Kimball, Ling Liu,
- Abstract要約: 大規模言語モデル(LLM)は、害のある微調整攻撃(citeqi2023fine)に対して脆弱である。
既存の緩和戦略には、アライメントステージソリューション citehuang2024vaccine、rosati2024representation、微調整ステージソリューション citehuang2024lazy、mukhoti2023fineが含まれる。
我々は,テキストに非依存なポストファインニングステージソリューションであるAntidoteを提案する。
- 参考スコア(独自算出の注目度): 7.9447287301860445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety aligned Large Language Models (LLMs) are vulnerable to harmful fine-tuning attacks \cite{qi2023fine}-- a few harmful data mixed in the fine-tuning dataset can break the LLMs's safety alignment. Existing mitigation strategies include alignment stage solutions \cite{huang2024vaccine, rosati2024representation} and fine-tuning stage solutions \cite{huang2024lazy,mukhoti2023fine}. However, our evaluation shows that both categories of defenses fail \textit{when some specific training hyper-parameters are chosen} -- a large learning rate or a large number of training epochs in the fine-tuning stage can easily invalidate the defense, which however, is necessary to guarantee finetune performance. To this end, we propose Antidote, a post-fine-tuning stage solution, which remains \textbf{\textit{agnostic to the training hyper-parameters in the fine-tuning stage}}. Antidote relies on the philosophy that by removing the harmful parameters, the harmful model can be recovered from the harmful behaviors, regardless of how those harmful parameters are formed in the fine-tuning stage. With this philosophy, we introduce a one-shot pruning stage after harmful fine-tuning to remove the harmful weights that are responsible for the generation of harmful content. Despite its embarrassing simplicity, empirical results show that Antidote can reduce harmful score while maintaining accuracy on downstream tasks.
- Abstract(参考訳): 安全性に配慮した大規模言語モデル(LLM)は、有害な微調整攻撃に対して脆弱である。
既存の緩和策としては、アライメントステージ解 \cite{huang2024vaccine, rosati2024representation} と微調整ステージ解 \cite{huang2024lazy,mukhoti2023fine} がある。
しかし, 評価の結果, 両ディフェンスのカテゴリは, 特定のトレーニングハイパーパラメータが選択された場合にフェールすることが明らかとなった。
この目的のために, 微調整後の段階解であるAntidoteを提案する。
解毒剤は、有害なパラメータを除去することで、有害なパラメータが微調整の段階でどのように形成されるかに関わらず、有害な振る舞いから有害なモデルを取り戻すことができるという哲学に依存している。
本哲学では,有害物質の発生の原因となる有害重量を除去するために,有害微調整後のワンショットプルーニングステージを導入する。
その恥ずかしい単純さにもかかわらず、実証的な結果は、アンティドテは下流のタスクの精度を維持しながら有害なスコアを減らすことができることを示している。
関連論文リスト
- Fundamental Limitations in Defending LLM Finetuning APIs [61.29028411001255]
細調整APIの防御は、細調整攻撃を防ぐ能力に基本的に制限されていることを示す。
我々は、危険知識を隠蔽的に伝達するために、良性モデル出力のエントロピーを再利用する'ポイントワイド検出不能'アタックを構築した。
OpenAIの微調整APIに対する攻撃をテストし、有害な複数の質問に対する回答を導き出すことに成功しました。
論文 参考訳(メタデータ) (2025-02-20T18:45:01Z) - Panacea: Mitigating Harmful Fine-tuning for Large Language Models via Post-fine-tuning Perturbation [58.7395356511539]
有害な微調整攻撃は、微調整サービスに重大なセキュリティリスクをもたらす。
主流防衛は、後の有害な微調整攻撃がより効果的でないように、モデルを予防接種することを目的としている。
微調整後のモデルに適用可能な適応的摂動を最適化するパナセアを提案する。
論文 参考訳(メタデータ) (2025-01-30T02:47:09Z) - Safety Alignment Backfires: Preventing the Re-emergence of Suppressed Concepts in Fine-tuned Text-to-Image Diffusion Models [57.16056181201623]
微調整されたテキストと画像の拡散モデルは、必然的に安全対策を解除し、有害な概念を再現する。
本報告では,Funice-Tuning LoRAコンポーネントとは別に,安全性の低い適応モジュールをトレーニングする,Modular LoRAと呼ばれる新しいソリューションを提案する。
本手法は,新しいタスクにおけるモデルの性能を損なうことなく,有害なコンテンツの再学習を効果的に防止する。
論文 参考訳(メタデータ) (2024-11-30T04:37:38Z) - Booster: Tackling Harmful Fine-tuning for Large Language Models via Attenuating Harmful Perturbation [7.945893812374361]
有害な微調整問題 citepqi2023fineは、大規模言語モデルの微細チューニング・アズ・ア・サービスに対して深刻な安全性上の懸念をもたらす。
本稿では,この問題を軽減するために,Boosterと呼ばれるアライメントステージソリューションを提案する。
論文 参考訳(メタデータ) (2024-09-03T03:59:22Z) - Covert Malicious Finetuning: Challenges in Safeguarding LLM Adaptation [86.05704141217036]
Black-boxファインタニングは、最先端の言語モデルをユーザのニーズに適応するための、新たなインターフェースである。
本研究では,検出を回避しながら,モデル安全性を損なう手法である隠れ悪意のある微調整を導入する。
論文 参考訳(メタデータ) (2024-06-28T17:05:46Z) - Representation Noising: A Defence Mechanism Against Harmful Finetuning [28.451676139178687]
オープンソースの大規模言語モデル(LLM)のリースは、悪質なアクターがこれらのモデルを有害な目的のために簡単に微調整できるため、デュアルユースリスクをもたらす。
本稿では,攻撃者が重みにアクセスできる場合でも,防御機構であるRepresentation Noising(RepNoise)を提案する。
論文 参考訳(メタデータ) (2024-05-23T13:51:55Z) - Immunization against harmful fine-tuning attacks [21.97813820548174]
大きな言語モデル(LLM)は、有害なテキスト生成を防ぐための安全ガードで訓練されることが多い。
しかし、有害なデータセット上でLLMを微調整することで、そのような安全トレーニングを除去することができる。
我々は「免疫」条件と呼ばれる攻撃者の訓練予算に基づく正式な枠組みを導入する。
論文 参考訳(メタデータ) (2024-02-26T08:08:03Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z) - Vaccine: Perturbation-aware Alignment for Large Language Models against Harmful Fine-tuning Attack [7.653580388741887]
ユーザがアップロードした有害なデータのいくつかは、微調整を簡単に騙してアライメントが壊れたモデルを生成することができる。
本稿では,ユーザが微調整を行う際のセキュリティリスクを軽減するために,摂動を考慮したアライメント手法であるVaccineを提案する。
論文 参考訳(メタデータ) (2024-02-02T02:56:50Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。