論文の概要: Booster: Tackling Harmful Fine-tuing for Large Language Models via Attenuating Harmful Perturbation
- arxiv url: http://arxiv.org/abs/2409.01586v1
- Date: Tue, 3 Sep 2024 03:59:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 02:53:07.875478
- Title: Booster: Tackling Harmful Fine-tuing for Large Language Models via Attenuating Harmful Perturbation
- Title(参考訳): Booster: ハームフルな摂動を減らした大規模言語モデルのためのハームフルな微調整
- Authors: Tiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Ling Liu,
- Abstract要約: 有害な微調整問題 citepqi2023fineは、大規模言語モデルの微細チューニング・アズ・ア・サービスに対して深刻な安全性上の懸念をもたらす。
本稿では,この問題を軽減するために,Boosterと呼ばれるアライメントステージソリューションを提案する。
- 参考スコア(独自算出の注目度): 7.945893812374361
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Harmful fine-tuning issue \citep{qi2023fine} poses serious safety concerns for Large language models' fine-tuning-as-a-service. While existing defenses \citep{huang2024vaccine,rosati2024representation} have been proposed to mitigate the issue, their performances are still far away from satisfactory, and the root cause of the problem has not been fully recovered. For the first time in the literature, we in this paper show that \textit{harmful perturbation} over the model weights should be the root cause of alignment-broken of harmful fine-tuning. In order to attenuate the negative impact of harmful perturbation, we propose an alignment-stage solution, dubbed Booster. Technically, along with the original alignment loss, we append a loss regularizer in the alignment stage's optimization. The regularizer ensures that the model's harmful loss reduction before/after simulated harmful perturbation is attenuated, thereby mitigating the subsequent fine-tuning risk. Empirical results show that Booster can effectively reduce the harmful score of the fine-tuned models while maintaining the performance of downstream tasks. Our code is available at \url{https://github.com/git-disl/Booster}.
- Abstract(参考訳): Harmful fine-tuning issue \citep{qi2023fine} は、大規模言語モデルの fine-tuning-as-a-service に対して深刻な安全性上の懸念をもたらす。
既存のディフェンス \citep{huang2024vaccine,rosati2024representation} は問題を緩和するために提案されているが、彼らのパフォーマンスはまだ満足には程遠いものであり、問題の根本原因が完全に回復されていない。
本論文では, モデル重量に対する<textit{harmful perturbation>が, 有害な微調整のアライメントの根本原因であることを示す。
有害な摂動の負の影響を軽減するために,Boosterと呼ばれるアライメントステージソリューションを提案する。
技術的には、元々のアライメント損失とともに、アライメントステージの最適化に損失正規化器を付加する。
正規化器は、シミュレーションされた有害な摂動の前後でモデルが有害な損失を減らすことを保証し、その後の微調整リスクを軽減する。
実験結果から, 下流タスクの性能を維持しつつ, 微調整モデルの有害スコアを効果的に低減できることが示唆された。
私たちのコードは \url{https://github.com/git-disl/Booster} で利用可能です。
関連論文リスト
- Online Stackelberg Optimization via Nonlinear Control [11.220642401065495]
適応エージェントとの繰り返しの相互作用問題では、エージェント応答の空間を予測し、最適化する必要があることが多い。
この形態の多くの問題は、テキスト局所制御性を満たすオンライン(非線形)制御のインスタンスとして、境界状態空間上で凸損失を伴ってキャスト可能であることを示す。
このような場合において、トラクタブルな後悔の最小化のための統一的なアルゴリズムフレームワークを導入する。
論文 参考訳(メタデータ) (2024-06-27T00:42:33Z) - Lazy Safety Alignment for Large Language Models against Harmful Fine-tuning [7.945893812374361]
安全アライメントを備えた大規模言語モデル(LLM)は、有害なデータと混在するデータセットを微調整することで、脱獄することができる。
調整段階の状態を分離して、アライメントとユーザデータセットを最適化することで、脱獄効果を緩和できることを示す。
textbfLazy(textbfi) textbfalignment(textbfLisa)を提案する。
論文 参考訳(メタデータ) (2024-05-28T22:53:43Z) - Vaccine: Perturbation-aware Alignment for Large Language Models against Harmful Fine-tuning [7.653580388741887]
ユーザがアップロードした有害なデータのいくつかは、微調整を簡単に騙してアライメントが壊れたモデルを生成することができる。
本稿では,ユーザが微調整を行う際のセキュリティリスクを軽減するために,摂動を考慮したアライメント手法であるVaccineを提案する。
論文 参考訳(メタデータ) (2024-02-02T02:56:50Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - The Poison of Alignment [0.0]
そこで本研究では,アライメントの有無の影響を受け,命令調整モデルの性能に新たな洞察を与える。
その結果,様々な推論ベンチマークで得られた微調整モデルの性能が著しく低下することが実証された。
論文 参考訳(メタデータ) (2023-08-25T15:51:15Z) - STAR Loss: Reducing Semantic Ambiguity in Facial Landmark Detection [80.04000067312428]
本稿では,意味的あいまいさの特性を利用した自己適応型あいまいさ低減(STAR)の損失を提案する。
意味的あいまいさは異方性予測分布をもたらすことが分かり、予測分布を用いて意味的あいまいさを表現する。
また,分布の異常変化とモデルの初期収束を回避できる2種類の固有値制限法を提案する。
論文 参考訳(メタデータ) (2023-06-05T10:33:25Z) - PTP: Boosting Stability and Performance of Prompt Tuning with
Perturbation-Based Regularizer [94.23904400441957]
損失景観を平滑化できる摂動型正規化器を即時チューニングに導入する。
我々は乱数ノイズベースと逆数ベースを含む2種類の摂動型正規化器を設計する。
我々の新しいアルゴリズムは,SuperGLUEベンチマークとFewGLUEベンチマークでそれぞれ1.94%,2.34%の最先端のプロンプトチューニング手法を改善した。
論文 参考訳(メタデータ) (2023-05-03T20:30:51Z) - Improved Visual Fine-tuning with Natural Language Supervision [36.250244364023665]
視覚的事前学習モデルの微調整は、大規模事前学習データからの意味情報を活用することができる。
術前訓練した背骨における破折性忘れの問題は、微調整のために広く研究されている。
固定テキスト分類器から得られた参照分布を導入し,学習した視覚分類器の正規化を支援する。
論文 参考訳(メタデータ) (2023-04-04T03:08:02Z) - Towards the Semantic Weak Generalization Problem in Generative Zero-Shot
Learning: Ante-hoc and Post-hoc [89.68803484284408]
生成ゼロショット学習(ZSL)の性能上限を制限した未探索要素を簡易かつ効果的に削減する戦略を提案する。
まず、意味的一般化を正式に定義し、その後、意味的弱一般化問題を減らそうとするアプローチを検討する。
アンテホック相では、ジェネレータのセマンティック入力を増強し、ジェネレータの適合ターゲットを緩和する。
論文 参考訳(メタデータ) (2022-04-24T13:54:42Z) - Characterizing and addressing the issue of oversmoothing in neural
autoregressive sequence modeling [49.06391831200667]
提案手法がモデル分布と復号化性能に与える影響について検討する。
神経自己回帰モデルにおいて,過度に持続可能な短い配列が生じる主な原因は,高次スムージングが原因であると結論付けている。
論文 参考訳(メタデータ) (2021-12-16T14:33:12Z) - Calibrated Surrogate Losses for Adversarially Robust Classification [92.37268323142307]
線形モデルに制限された場合の逆0-1損失に対して凸代理損失は考慮されないことを示す。
また,Massartの雑音条件を満たす場合,対向条件下では凸損失も校正可能であることを示す。
論文 参考訳(メタデータ) (2020-05-28T02:40:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。