論文の概要: NLSR: Neuron-Level Safety Realignment of Large Language Models Against Harmful Fine-Tuning
- arxiv url: http://arxiv.org/abs/2412.12497v1
- Date: Tue, 17 Dec 2024 02:59:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:59:44.157961
- Title: NLSR: Neuron-Level Safety Realignment of Large Language Models Against Harmful Fine-Tuning
- Title(参考訳): NLSR: 有害な微調整に対する大規模言語モデルのニューロンレベル安全性向上
- Authors: Xin Yi, Shunfan Zheng, Linlin Wang, Gerard de Melo, Xiaoling Wang, Liang He,
- Abstract要約: ユーザによってアップロードされた悪意のあるデータのごく一部は、微調整プロセスを微妙に操作できるため、アライメントが壊れたモデルになる。
既存の微調整攻撃に対抗する方法は、典型的にはかなりの計算資源を必要とする。
textbfNeuron-textbfLevel textbfSafety textbfRealignmentを提案する。
- 参考スコア(独自算出の注目度): 37.024666077902225
- License:
- Abstract: The emergence of finetuning-as-a-service has revealed a new vulnerability in large language models (LLMs). A mere handful of malicious data uploaded by users can subtly manipulate the finetuning process, resulting in an alignment-broken model. Existing methods to counteract fine-tuning attacks typically require substantial computational resources. Even with parameter-efficient techniques like LoRA, gradient updates remain essential. To address these challenges, we propose \textbf{N}euron-\textbf{L}evel \textbf{S}afety \textbf{R}ealignment (\textbf{NLSR}), a training-free framework that restores the safety of LLMs based on the similarity difference of safety-critical neurons before and after fine-tuning. The core of our framework is first to construct a safety reference model from an initially aligned model to amplify safety-related features in neurons. We then utilize this reference model to identify safety-critical neurons, which we prepare as patches. Finally, we selectively restore only those neurons that exhibit significant similarity differences by transplanting these prepared patches, thereby minimally altering the fine-tuned model. Extensive experiments demonstrate significant safety enhancements in fine-tuned models across multiple downstream tasks, while greatly maintaining task-level accuracy. Our findings suggest regions of some safety-critical neurons show noticeable differences after fine-tuning, which can be effectively corrected by transplanting neurons from the reference model without requiring additional training. The code will be available at \url{https://github.com/xinykou/NLSR}
- Abstract(参考訳): ファインタニング・アズ・ア・サービス( finetuning-as-a-service)の出現により、大規模言語モデル(LLM)に新たな脆弱性が明らかになった。
ユーザーがアップロードしたごく少数の悪意のあるデータが、微調整処理を微妙に操作できるため、アライメントが壊れたモデルになる。
既存の微調整攻撃に対抗する方法は、典型的にはかなりの計算資源を必要とする。
LoRAのようなパラメータ効率のよいテクニックであっても、勾配更新は依然として不可欠である。
これらの課題に対処するため、我々は、安全クリティカルニューロンの類似性の違いに基づいてLLMの安全性を回復するトレーニング不要のフレームワークである \textbf{N}euron-\textbf{L}evel \textbf{S}afety \textbf{R}ealignment (\textbf{NLSR})を提案する。
本フレームワークのコアは,神経細胞の安全性関連特徴を増幅するために,初期整列モデルから安全基準モデルを構築することである。
次に、この基準モデルを用いて、安全クリティカルニューロンを同定し、パッチとして準備する。
最後に、これらのパッチを移植することにより、重要な類似性の違いを示すニューロンのみを選択的に復元し、微調整モデルの変更を最小限に抑える。
広範囲な実験は、タスクレベルの精度を著しく維持しつつ、複数の下流タスクにわたる微調整されたモデルにおいて、大幅な安全性向上を示す。
以上の結果から,いくつかの安全クリティカルニューロンの部位は微調整後に顕著な相違がみられ,追加の訓練を必要とせず,参照モデルからニューロンを移植することで効果的に修正できることが示唆された。
コードは \url{https://github.com/xinykou/NLSR} で入手できる。
関連論文リスト
- Locking Down the Finetuned LLMs Safety [33.56657036839617]
特定の下流タスクのために最適化するためには、追加のデータセット上での微調整大型言語モデル(LLM)が必要であることが多い。
既存の安全アライメント対策は、推論中の有害な行動を制限するものであり、微調整時の安全性リスクを軽減するには不十分である。
そこで,本研究では,手直し後の堅牢な安全性を維持する新しいアライメント介入手法であるSafetyLockを紹介する。
論文 参考訳(メタデータ) (2024-10-14T09:58:29Z) - Overriding Safety protections of Open-source Models [4.093963624562595]
本稿では, 微調整における有害データ導入の影響について検討する。
有害なデータに対してモデルを微調整することで、役に立たないか、信頼できないかを調査する。
安全な微調整モデルでは、ベースモデルと比較してASRは51.68%減少する。
論文 参考訳(メタデータ) (2024-09-28T22:53:27Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - A safety realignment framework via subspace-oriented model fusion for large language models [22.588716190505963]
サブスペース指向モデル融合(SOMF)による安全性向上フレームワークを提案する。
我々のアプローチは、各微調整されたモデルの重みから全てのタスクベクトルを遠ざけることから始まる。
次に,これらのベクトル内の安全関連領域をサブスペースマスキング手法により同定する。
論文 参考訳(メタデータ) (2024-05-15T03:04:05Z) - Automated Repair of Neural Networks [0.26651200086513094]
安全でないNNの安全仕様を修復するためのフレームワークを提案する。
提案手法では,重み値のいくつかを修正して,新しい安全なNN表現を探索することができる。
我々は,提案するフレームワークが安全なNNを実現する能力を示す広範な実験を行った。
論文 参考訳(メタデータ) (2022-07-17T12:42:24Z) - Do Gradient Inversion Attacks Make Federated Learning Unsafe? [70.0231254112197]
フェデレートラーニング(FL)は、生データを共有することなく、AIモデルの協調トレーニングを可能にする。
モデル勾配からのディープニューラルネットワークの反転に関する最近の研究は、トレーニングデータの漏洩を防止するためのFLの安全性に関する懸念を提起した。
本研究では,本論文で提示されたこれらの攻撃が実際のFLユースケースでは実行不可能であることを示し,新たなベースライン攻撃を提供する。
論文 参考訳(メタデータ) (2022-02-14T18:33:12Z) - Training Feedback Spiking Neural Networks by Implicit Differentiation on
the Equilibrium State [66.2457134675891]
スパイキングニューラルネットワーク(英: Spiking Neural Network、SNN)は、ニューロモルフィックハードウェア上でエネルギー効率の高い実装を可能にする脳にインスパイアされたモデルである。
既存のほとんどの手法は、人工ニューラルネットワークのバックプロパゲーションフレームワークとフィードフォワードアーキテクチャを模倣している。
本稿では,フォワード計算の正逆性に依存しない新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-09-29T07:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。