論文の概要: Unforgotten Safety: Preserving Safety Alignment of Large Language Models with Continual Learning
- arxiv url: http://arxiv.org/abs/2512.10150v1
- Date: Wed, 10 Dec 2025 23:16:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.10962
- Title: Unforgotten Safety: Preserving Safety Alignment of Large Language Models with Continual Learning
- Title(参考訳): 忘れられぬ安全:継続的な学習を伴う大規模言語モデルの安全アライメントを維持する
- Authors: Lama Alssum, Hani Itani, Hasan Abed Al Kader Hammoud, Philip Torr, Adel Bibi, Bernard Ghanem,
- Abstract要約: 我々は、大きな言語モデルを新しいタスクに適応させることで生じる安全性の低下について研究する。
ユーザがデータをサービスプロバイダにアップロードして,ユーザの選択したタスクを排他的に最適化したモデルを取得する,詳細なチューニング・アズ・ア・サービス設定について検討する。
文献からいくつかのCLアプローチを適用し,安全性の低下を緩和する能力を体系的に評価する。
- 参考スコア(独自算出の注目度): 79.45860948246742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The safety alignment of large language models (LLMs) is becoming increasingly important with their democratization. In this paper, we study the safety degradation that comes with adapting LLMs to new tasks. We attribute this safety compromise to catastrophic forgetting and frame the problem of preserving safety when fine-tuning as a continual learning (CL) problem. We consider the fine-tuning-as-a-service setup where the user uploads their data to a service provider to get a customized model that excels on the user's selected task. We adapt several CL approaches from the literature and systematically evaluate their ability to mitigate safety degradation. These include regularization-based, memory-based, and model merging approaches. We consider two scenarios, (1) benign user data and (2) poisoned user data. Our results demonstrate that CL approaches consistently achieve lower attack success rates than standard fine-tuning. Among these, DER outperforms both other CL methods and existing safety-preserving baselines while maintaining task utility. These findings generalize across three downstream tasks (GSM8K, SST2, Code) and three model families (LLaMA2-7B, Mistral-7B, Gemma-2B), establishing CL as a practical solution to preserve safety.
- Abstract(参考訳): 大きな言語モデル(LLM)の安全性の整合性は、民主化によってますます重要になってきています。
本稿では,新しい作業にLLMを適用することで生じる安全性の劣化について検討する。
我々は、この安全性の妥協は破滅的な忘れを招き、連続学習(CL)問題として微調整を行う際の安全性の維持の問題に枠組みを組む。
ユーザがデータをサービスプロバイダにアップロードして,ユーザの選択したタスクを排他的に最適化したモデルを取得する,詳細なチューニング・アズ・ア・サービス設定について検討する。
文献からいくつかのCLアプローチを適用し,安全性の低下を緩和する能力を体系的に評価する。
これには正規化ベース、メモリベース、モデルマージアプローチが含まれる。
我々は,(1)良性ユーザデータと(2)有毒ユーザデータという2つのシナリオを考察する。
その結果,CLアプローチは通常の微調整よりも攻撃成功率が低いことがわかった。
その中でもDERは、タスクユーティリティを維持しながら、他のCLメソッドと既存のセーフティ保存ベースラインの両方を上回ります。
これらの結果は,3つの下流タスク (GSM8K, SST2, Code) と3つのモデルファミリー (LLaMA2-7B, Mistral-7B, Gemma-2B) にまたがって一般化し, CLを安全性維持のための実用的なソリューションとして確立した。
関連論文リスト
- UpSafe$^\circ$C: Upcycling for Controllable Safety in Large Language Models [67.91151588917396]
大規模言語モデル(LLM)は、幅広いタスクで顕著な進歩を遂げているが、有害なコンテンツ生成やジェイルブレイク攻撃といった安全リスクに弱いままである。
安全に配慮したリサイクルによるLCMの安全性向上のための統合フレームワークであるUpSafe$circ$Cを提案する。
この結果から, 静的アライメントから動的, モジュール, 推論対応制御への移行という, LLMの安全性の新たな方向性が明らかになった。
論文 参考訳(メタデータ) (2025-10-02T16:43:33Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - SafeCOMM: A Study on Safety Degradation in Fine-Tuned Telecom Large Language Models [86.11849528108199]
テレコムデータセット上での細調整大型言語モデル(LLM)は、汎用モデルをテレコムドメインに適応するための一般的なプラクティスである。
近年の研究では、良質な微調整でさえLLMの安全性を低下させ、有害なユーザークエリや非倫理的なユーザクエリに応答させることが示されている。
論文 参考訳(メタデータ) (2025-05-29T13:31:51Z) - SafeMERGE: Preserving Safety Alignment in Fine-Tuned Large Language Models via Selective Layer-Wise Model Merging [30.820398160975504]
微調整された大型言語モデル(LLM)は安全性を損なう可能性があるため、LSMは有害または非倫理的なプロンプトに応答する。
本稿では,下流性能を維持しながら安全性を維持する軽量なポストファインニングフレームワークであるSafeMERGEを提案する。
以上の結果から,選択的層ワイドマージは微調整時の安全性の低下を効果的に防ぐことができることが示された。
論文 参考訳(メタデータ) (2025-03-21T15:44:09Z) - Controllable Safety Alignment: Inference-Time Adaptation to Diverse Safety Requirements [46.79887158348167]
大規模言語モデル(LLM)の安全性アライメントに関する現在のパラダイムは、一大のアプローチに従っている。
我々は,モデルの再トレーニングを伴わず,多様な安全要件に適応するフレームワークとして,制御可能な安全アライメント(CoSA)を提案する。
論文 参考訳(メタデータ) (2024-10-11T16:38:01Z) - Multitask Mayhem: Unveiling and Mitigating Safety Gaps in LLMs Fine-tuning [1.3307486544794784]
レッドチーム/セーフティアライメントの取り組みは、良質な(有害でない)データの微調整モデルが安全性を損なう可能性があることを示している。
本稿では,要約,コード生成,翻訳,分類などの下流タスクの微調整によるタスクの安全性の低下について検討する。
我々の研究は、より安全でロバストなモデルを保証するために、一般化されたアライメント対策の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-09-18T08:04:24Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。