論文の概要: Booster: Tackling Harmful Fine-tuning for Large Language Models via Attenuating Harmful Perturbation
- arxiv url: http://arxiv.org/abs/2409.01586v2
- Date: Wed, 4 Sep 2024 19:30:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 12:28:47.646769
- Title: Booster: Tackling Harmful Fine-tuning for Large Language Models via Attenuating Harmful Perturbation
- Title(参考訳): Booster: 有害な摂動を減らし、大きな言語モデルに有害な微調整を施す
- Authors: Tiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Ling Liu,
- Abstract要約: 有害な微調整問題 citepqi2023fineは、大規模言語モデルの微細チューニング・アズ・ア・サービスに対して深刻な安全性上の懸念をもたらす。
本稿では,この問題を軽減するために,Boosterと呼ばれるアライメントステージソリューションを提案する。
- 参考スコア(独自算出の注目度): 7.945893812374361
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Harmful fine-tuning issue \citep{qi2023fine} poses serious safety concerns for Large language models' fine-tuning-as-a-service. While existing defenses \citep{huang2024vaccine,rosati2024representation} have been proposed to mitigate the issue, their performances are still far away from satisfactory, and the root cause of the problem has not been fully recovered. For the first time in the literature, we in this paper show that \textit{harmful perturbation} over the model weights should be the root cause of alignment-broken of harmful fine-tuning. In order to attenuate the negative impact of harmful perturbation, we propose an alignment-stage solution, dubbed Booster. Technically, along with the original alignment loss, we append a loss regularizer in the alignment stage's optimization. The regularizer ensures that the model's harmful loss reduction before/after simulated harmful perturbation is attenuated, thereby mitigating the subsequent fine-tuning risk. Empirical results show that Booster can effectively reduce the harmful score of the fine-tuned models while maintaining the performance of downstream tasks. Our code is available at \url{https://github.com/git-disl/Booster}.
- Abstract(参考訳): Harmful fine-tuning issue \citep{qi2023fine} は、大規模言語モデルの fine-tuning-as-a-service に対して深刻な安全性上の懸念をもたらす。
既存のディフェンス \citep{huang2024vaccine,rosati2024representation} は問題を緩和するために提案されているが、彼らのパフォーマンスはまだ満足には程遠いものであり、問題の根本原因が完全に回復されていない。
本論文では, モデル重量に対する<textit{harmful perturbation>が, 有害な微調整のアライメントの根本原因であることを示す。
有害な摂動の負の影響を軽減するために,Boosterと呼ばれるアライメントステージソリューションを提案する。
技術的には、元々のアライメント損失とともに、アライメントステージの最適化に損失正規化器を付加する。
正規化器は、シミュレーションされた有害な摂動の前後でモデルが有害な損失を減らすことを保証し、その後の微調整リスクを軽減する。
実験結果から, 下流タスクの性能を維持しつつ, 微調整モデルの有害スコアを効果的に低減できることが示唆された。
私たちのコードは \url{https://github.com/git-disl/Booster} で利用可能です。
関連論文リスト
- Panacea: Mitigating Harmful Fine-tuning for Large Language Models via Post-fine-tuning Perturbation [58.7395356511539]
有害な微調整攻撃は、微調整サービスに重大なセキュリティリスクをもたらす。
主流防衛は、後の有害な微調整攻撃がより効果的でないように、モデルを予防接種することを目的としている。
微調整後のモデルに適用可能な適応的摂動を最適化するパナセアを提案する。
論文 参考訳(メタデータ) (2025-01-30T02:47:09Z) - Safety Alignment Backfires: Preventing the Re-emergence of Suppressed Concepts in Fine-tuned Text-to-Image Diffusion Models [57.16056181201623]
微調整されたテキストと画像の拡散モデルは、必然的に安全対策を解除し、有害な概念を再現する。
本報告では,Funice-Tuning LoRAコンポーネントとは別に,安全性の低い適応モジュールをトレーニングする,Modular LoRAと呼ばれる新しいソリューションを提案する。
本手法は,新しいタスクにおけるモデルの性能を損なうことなく,有害なコンテンツの再学習を効果的に防止する。
論文 参考訳(メタデータ) (2024-11-30T04:37:38Z) - Antidote: Post-fine-tuning Safety Alignment for Large Language Models against Harmful Fine-tuning [7.9447287301860445]
大規模言語モデル(LLM)は、害のある微調整攻撃(citeqi2023fine)に対して脆弱である。
既存の緩和戦略には、アライメントステージソリューション citehuang2024vaccine、rosati2024representation、微調整ステージソリューション citehuang2024lazy、mukhoti2023fineが含まれる。
我々は、textbftextitagsticに留まらず、微調整後のステージソリューションであるAntidoteを提案する。
論文 参考訳(メタデータ) (2024-08-18T21:45:03Z) - Lisa: Lazy Safety Alignment for Large Language Models against Harmful Fine-tuning Attack [7.945893812374361]
安全アライメントを備えた大規模言語モデル(LLM)は、有害なデータと混在するデータセットを微調整することで、脱獄することができる。
調整段階の状態を分離して、アライメントとユーザデータセットを最適化することで、脱獄効果を緩和できることを示す。
textbfLazy(textbfi) textbfalignment(textbfLisa)を提案する。
論文 参考訳(メタデータ) (2024-05-28T22:53:43Z) - Vaccine: Perturbation-aware Alignment for Large Language Models against Harmful Fine-tuning Attack [7.653580388741887]
ユーザがアップロードした有害なデータのいくつかは、微調整を簡単に騙してアライメントが壊れたモデルを生成することができる。
本稿では,ユーザが微調整を行う際のセキュリティリスクを軽減するために,摂動を考慮したアライメント手法であるVaccineを提案する。
論文 参考訳(メタデータ) (2024-02-02T02:56:50Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - The Poison of Alignment [0.0]
そこで本研究では,アライメントの有無の影響を受け,命令調整モデルの性能に新たな洞察を与える。
その結果,様々な推論ベンチマークで得られた微調整モデルの性能が著しく低下することが実証された。
論文 参考訳(メタデータ) (2023-08-25T15:51:15Z) - PTP: Boosting Stability and Performance of Prompt Tuning with
Perturbation-Based Regularizer [94.23904400441957]
損失景観を平滑化できる摂動型正規化器を即時チューニングに導入する。
我々は乱数ノイズベースと逆数ベースを含む2種類の摂動型正規化器を設計する。
我々の新しいアルゴリズムは,SuperGLUEベンチマークとFewGLUEベンチマークでそれぞれ1.94%,2.34%の最先端のプロンプトチューニング手法を改善した。
論文 参考訳(メタデータ) (2023-05-03T20:30:51Z) - Towards the Semantic Weak Generalization Problem in Generative Zero-Shot
Learning: Ante-hoc and Post-hoc [89.68803484284408]
生成ゼロショット学習(ZSL)の性能上限を制限した未探索要素を簡易かつ効果的に削減する戦略を提案する。
まず、意味的一般化を正式に定義し、その後、意味的弱一般化問題を減らそうとするアプローチを検討する。
アンテホック相では、ジェネレータのセマンティック入力を増強し、ジェネレータの適合ターゲットを緩和する。
論文 参考訳(メタデータ) (2022-04-24T13:54:42Z) - Calibrated Surrogate Losses for Adversarially Robust Classification [92.37268323142307]
線形モデルに制限された場合の逆0-1損失に対して凸代理損失は考慮されないことを示す。
また,Massartの雑音条件を満たす場合,対向条件下では凸損失も校正可能であることを示す。
論文 参考訳(メタデータ) (2020-05-28T02:40:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。