論文の概要: Safe Delta: Consistently Preserving Safety when Fine-Tuning LLMs on Diverse Datasets
- arxiv url: http://arxiv.org/abs/2505.12038v1
- Date: Sat, 17 May 2025 15:01:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.000908
- Title: Safe Delta: Consistently Preserving Safety when Fine-Tuning LLMs on Diverse Datasets
- Title(参考訳): 安全デルタ: さまざまなデータセット上の微調整LDMの安全性を持続的に維持する
- Authors: Ning Lu, Shengcai Liu, Jiahao Wu, Weiyu Chen, Zhirui Zhang, Yew-Soon Ong, Qi Wang, Ke Tang,
- Abstract要約: 大規模言語モデル(LLM)の安全性を考慮したポストトレーニング防衛手法であるSafe Deltaを提案する。
当社のアプローチは、良質なデータセットからのユーティリティゲインが影響を受けないことを保証しながら、安全を継続的に維持します。
- 参考スコア(独自算出の注目度): 49.412887135146725
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) have shown great potential as general-purpose AI assistants across various domains. To fully leverage this potential in specific applications, many companies provide fine-tuning API services, enabling users to upload their own data for LLM customization. However, fine-tuning services introduce a new safety threat: user-uploaded data, whether harmful or benign, can break the model's alignment, leading to unsafe outputs. Moreover, existing defense methods struggle to address the diversity of fine-tuning datasets (e.g., varying sizes, tasks), often sacrificing utility for safety or vice versa. To address this issue, we propose Safe Delta, a safety-aware post-training defense method that adjusts the delta parameters (i.e., the parameter change before and after fine-tuning). Specifically, Safe Delta estimates the safety degradation, selects delta parameters to maximize utility while limiting overall safety loss, and applies a safety compensation vector to mitigate residual safety loss. Through extensive experiments on four diverse datasets with varying settings, our approach consistently preserves safety while ensuring that the utility gain from benign datasets remains unaffected.
- Abstract(参考訳): 大規模言語モデル(LLM)は、さまざまな領域にわたる汎用AIアシスタントとして大きな可能性を示している。
特定のアプリケーションでこの可能性を完全に活用するために、多くの企業が微調整のAPIサービスを提供しており、ユーザはLLMのカスタマイズのために自分のデータをアップロードできる。
しかし、微調整サービスは、新しい安全性の脅威をもたらす: 有害であるか良否にかかわらず、ユーザアップロードされたデータはモデルのアライメントを損なう可能性があるため、安全でない出力につながる。
さらに、既存の防御手法は、微調整データセット(例えば、サイズ、タスク)の多様性に対処するのに苦労し、安全のためにユーティリティを犠牲にすることが多い。
この問題に対処するために,デルタパラメータ(微調整前後のパラメータ変化)を調整したセーフデルタ(Safe Delta)を提案する。
具体的には、セーフデルタは安全性の劣化を推定し、全体の安全損失を抑えながら実用性を最大化するためにデルタパラメータを選択し、残留安全性損失を軽減するために安全補償ベクトルを適用した。
さまざまな設定を持つ4つの多様なデータセットに関する広範な実験を通じて、当社のアプローチは安全を維持しつつ、良質なデータセットからのユーティリティゲインが影響を受けないことを保証する。
関連論文リスト
- TraCeS: Trajectory Based Credit Assignment From Sparse Safety Feedback [15.904640266226023]
安全強化学習(RL)では、エージェントを安全な意思決定に合わせるために補助的な安全コストが使用される。
実際には、コスト関数や予算を含む安全性の制約は、不明または特定が難しい。
我々は、真の安全定義が不明な一般的な設定に対処し、少ないラベル付きデータから学ぶ必要がある。
論文 参考訳(メタデータ) (2025-04-17T01:11:08Z) - Locking Down the Finetuned LLMs Safety [33.56657036839617]
特定の下流タスクのために最適化するためには、追加のデータセット上での微調整大型言語モデル(LLM)が必要であることが多い。
既存の安全アライメント対策は、推論中の有害な行動を制限するものであり、微調整時の安全性リスクを軽減するには不十分である。
そこで,本研究では,手直し後の堅牢な安全性を維持する新しいアライメント介入手法であるSafetyLockを紹介する。
論文 参考訳(メタデータ) (2024-10-14T09:58:29Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Safety Arithmetic: A Framework for Test-time Safety Alignment of Language Models by Steering Parameters and Activations [19.132597762214722]
現在のアライメント手法は、動的なユーザ意図と複雑な目的に苦しむ。
異なるシナリオにおける安全性を向上させるトレーニングフリーフレームワークであるSafety Arithmeticを提案する。
実験の結果,安全算術は安全対策を大幅に改善し,過度な安全性を低減し,モデルの有用性を維持できることがわかった。
論文 参考訳(メタデータ) (2024-06-17T17:48:13Z) - Towards Comprehensive Post Safety Alignment of Large Language Models via Safety Patching [74.62818936088065]
textscSafePatchingは包括的なPSAのための新しいフレームワークである。
textscSafePatchingはベースラインメソッドよりも包括的なPSAを実現する。
textscSafePatchingは、連続的なPSAシナリオにおいて、その優位性を示している。
論文 参考訳(メタデータ) (2024-05-22T16:51:07Z) - Mitigating Fine-tuning based Jailbreak Attack with Backdoor Enhanced Safety Alignment [56.2017039028998]
言語モデル・アズ・ア・サービス(LM)のファインチューニングは、特にファインチューニングベースのジェイルブレイク攻撃(FJAttack)に対する新たな脅威をもたらす
本稿では,バックドア攻撃の概念と類似性から着想を得たバックドア強化安全アライメント手法を提案する。
我々の総合的な実験は、バックドア強化安全アライメント(Backdoor Enhanced Safety Alignment)を通じて、悪質に微調整されたLSMは、良質な性能を損なうことなく、オリジナルのアライメントモデルと同じような安全性性能を達成することを実証している。
論文 参考訳(メタデータ) (2024-02-22T21:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。