論文の概要: Panacea: Mitigating Harmful Fine-tuning for Large Language Models via Post-fine-tuning Perturbation
- arxiv url: http://arxiv.org/abs/2501.18100v1
- Date: Thu, 30 Jan 2025 02:47:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:15:32.449693
- Title: Panacea: Mitigating Harmful Fine-tuning for Large Language Models via Post-fine-tuning Perturbation
- Title(参考訳): Panacea: 微調整後摂動による大規模言語モデルの有害な微調整の軽減
- Authors: Yibo Wang, Tiansheng Huang, Li Shen, Huanjin Yao, Haotian Luo, Rui Liu, Naiqiang Tan, Jiaxing Huang, Dacheng Tao,
- Abstract要約: 有害な微調整攻撃は、微調整サービスに重大なセキュリティリスクをもたらす。
主流防衛は、後の有害な微調整攻撃がより効果的でないように、モデルを予防接種することを目的としている。
微調整後のモデルに適用可能な適応的摂動を最適化するパナセアを提案する。
- 参考スコア(独自算出の注目度): 58.7395356511539
- License:
- Abstract: Harmful fine-tuning attack introduces significant security risks to the fine-tuning services. Mainstream defenses aim to vaccinate the model such that the later harmful fine-tuning attack is less effective. However, our evaluation results show that such defenses are fragile -- with a few fine-tuning steps, the model still can learn the harmful knowledge. To this end, we do further experiment and find that an embarrassingly simple solution -- adding purely random perturbations to the fine-tuned model, can recover the model from harmful behavior, though it leads to a degradation in the model's fine-tuning performance. To address the degradation of fine-tuning performance, we further propose Panacea, which optimizes an adaptive perturbation that will be applied to the model after fine-tuning. Panacea maintains model's safety alignment performance without compromising downstream fine-tuning performance. Comprehensive experiments are conducted on different harmful ratios, fine-tuning tasks and mainstream LLMs, where the average harmful scores are reduced by up-to 21.5%, while maintaining fine-tuning performance. As a by-product, we analyze the optimized perturbation and show that different layers in various LLMs have distinct safety coefficients. Source code available at https://github.com/w-yibo/Panacea
- Abstract(参考訳): 有害な微調整攻撃は、微調整サービスに重大なセキュリティリスクをもたらす。
主流防衛は、後の有害な微調整攻撃がより効果的でないように、モデルを予防接種することを目的としている。
しかし、我々の評価結果は、そのような防御が脆弱であることを示しており、微調整のステップがいくつかあるため、モデルはまだ有害な知識を学習することができる。
この目的のために、さらに実験を行い、恥ずかしいほど単純なソリューション -- 微調整されたモデルに純粋にランダムな摂動を加えることで、有害な振る舞いからモデルを回復できるが、それはモデルの微調整性能の低下につながる。
さらに,微調整後のモデルに適用可能な適応摂動を最適化するPanaceaを提案する。
パナセアは、下流の微調整性能を損なうことなく、モデルの安全アライメント性能を維持する。
有害度を21.5%まで下げるとともに、微調整性能を維持しながら、様々な有害度、微調整タスク、メインストリームLCMの総合的な実験を行う。
副産物として最適化された摂動を解析し, 各LLMの異なる層が異なる安全性係数を持つことを示す。
ソースコードはhttps://github.com/w-yibo/Panaceaで入手できる。
関連論文リスト
- The effect of fine-tuning on language model toxicity [7.539523407936451]
オープンモデルの普及に伴い、微調整言語モデルの人気が高まっている。
我々は、微調整が異なるオープンモデルの有害なコンテンツを出力する確率にどのように影響するかを評価する。
低ランク適応による開発者の調整モデル上でのパラメータ効率の微調整は,これらの結果を大きく変更できることを示す。
論文 参考訳(メタデータ) (2024-10-21T09:39:09Z) - Overriding Safety protections of Open-source Models [4.093963624562595]
本稿では, 微調整における有害データ導入の影響について検討する。
有害なデータに対してモデルを微調整することで、役に立たないか、信頼できないかを調査する。
安全な微調整モデルでは、ベースモデルと比較してASRは51.68%減少する。
論文 参考訳(メタデータ) (2024-09-28T22:53:27Z) - Booster: Tackling Harmful Fine-tuning for Large Language Models via Attenuating Harmful Perturbation [7.945893812374361]
有害な微調整問題 citepqi2023fineは、大規模言語モデルの微細チューニング・アズ・ア・サービスに対して深刻な安全性上の懸念をもたらす。
本稿では,この問題を軽減するために,Boosterと呼ばれるアライメントステージソリューションを提案する。
論文 参考訳(メタデータ) (2024-09-03T03:59:22Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Covert Malicious Finetuning: Challenges in Safeguarding LLM Adaptation [86.05704141217036]
Black-boxファインタニングは、最先端の言語モデルをユーザのニーズに適応するための、新たなインターフェースである。
本研究では,検出を回避しながら,モデル安全性を損なう手法である隠れ悪意のある微調整を導入する。
論文 参考訳(メタデータ) (2024-06-28T17:05:46Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z) - Unleashing the Power of Contrastive Self-Supervised Visual Models via
Contrast-Regularized Fine-Tuning [94.35586521144117]
コントラスト学習を微調整に適用することでさらにメリットが得られるか検討する。
本研究では,コントラスト正規化調律(core-tuning)を提案する。
論文 参考訳(メタデータ) (2021-02-12T16:31:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。