論文の概要: GR-SAP: Generative Replay for Safety Alignment Preservation during Fine-Tuning
- arxiv url: http://arxiv.org/abs/2603.10243v1
- Date: Tue, 10 Mar 2026 21:40:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.700869
- Title: GR-SAP: Generative Replay for Safety Alignment Preservation during Fine-Tuning
- Title(参考訳): GR-SAP:ファインチューニング時の安全性確保のためのジェネレーティブリプレイ
- Authors: Zhouxiang Fang, Jiawei Zhou, Hanjie Chen,
- Abstract要約: 大規模言語モデルの安全性の整合性は、一見非敵対的な微調整によって容易に損なわれる。
連続学習における生成的再生に着想を得て, GR-SAP(Generative Replay for Safety Alignment Preservation)を提案する。
GR-SAPはダウンストリーム性能を維持しながら微調整による安全性劣化を著しく軽減する。
- 参考スコア(独自算出の注目度): 15.234182153613348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies show that the safety alignment of large language models (LLMs) can be easily compromised even by seemingly non-adversarial fine-tuning. To preserve safety alignment during fine-tuning, a widely used strategy is to jointly optimize safety and task objectives by mixing in the original alignment data, which is typically inaccessible even for open-weight LLMs. Inspired by generative replay in continual learning, we propose Generative Replay for Safety Alignment Preservation (GR-SAP), a unified framework that synthesizes domain-specific alignment data from LLMs and integrate them during downstream adaption to preserve safety alignment. Theoretical and empirical analyses demonstrate this synthetic data serves as a reliable proxy for the original alignment data. Experiments across various models and downstream tasks show that GR-SAP substantially mitigates fine-tuning-induced safety degradation while maintaining comparable downstream performance. Our code is available at https://github.com/chili-lab/gr-sap.
- Abstract(参考訳): 近年の研究では、大規模言語モデル(LLM)の安全性の整合性は、非敵対的な微調整でも容易に損なわれることが示されている。
微調整中の安全アライメントを維持するため、オープンウェイトLLMでも通常アクセスできない元のアライメントデータに混合することにより、安全とタスクの目的を共同で最適化する戦略が広く用いられている。
本研究では,LLMからドメイン固有のアライメントデータを合成し,下流適応時に統合して安全アライメントを維持する統合フレームワークGR-SAPを提案する。
理論的および実証的な分析は、この合成データが元のアライメントデータの信頼できるプロキシとして機能することを示した。
様々なモデルおよび下流タスクに対する実験により、GR-SAPは、同等の下流性能を維持しながら、微調整による安全性劣化を著しく軽減することが示された。
私たちのコードはhttps://github.com/chili-lab/gr-sap.comから入手可能です。
関連論文リスト
- Safeguarding LLM Fine-tuning via Push-Pull Distributional Alignment [45.772620696660034]
安全最適輸送(SOT)は、インスタンスレベルのフィルタリング課題から最適輸送(OT)に基づく分散レベルのアライメントタスクへ安全な微調整を再構成する新しいフレームワークである。
SOTは、下流の分布を信頼された安全なアンカーへ積極的に引き寄せ、同時に一般的な有害な参照から引き離すことで、サンプルの重要性を優先する。
さまざまなモデルファミリやドメインにわたる実験により、SOTは、競争力のある下流のパフォーマンスを維持しながら、モデルの安全性を大幅に向上することを示した。
論文 参考訳(メタデータ) (2026-01-12T04:48:02Z) - AlignGuard-LoRA: Alignment-Preserving Fine-Tuning via Fisher-Guided Decomposition and Riemannian-Geodesic Collision Regularization [6.5225344327304535]
低ランク適応(LoRA)は、大規模言語モデルを効率的に微調整するための標準ツールとなっている。
LoRA更新はアライメントドリフトを誘発し、安全性と行動制約を弱める。
ファインタニング時にアライメントを保存するための原則的フレームワークであるAlignGuard-LoRAを提案する。
論文 参考訳(メタデータ) (2025-08-04T05:45:24Z) - Layer-Aware Representation Filtering: Purifying Finetuning Data to Preserve LLM Safety Alignment [24.364891513019444]
本稿では, 微調整データセットには, 表面で容易に識別できない, 安全性の低下したサンプルがしばしば含まれていることを示す。
本稿では,レイヤ認識表現フィルタリング手法であるLARFを提案する。
実験結果から, LARFは良性データと安全性劣化の特徴を効果的に識別できることが示唆された。
論文 参考訳(メタデータ) (2025-07-24T17:59:24Z) - Safe Pruning LoRA: Robust Distance-Guided Pruning for Safety Alignment in Adaptation of LLMs [4.580092836731863]
Low-Rank Adaptation (LoRA) を用いた細調整大型言語モデル(LLM)は、計算コストを削減しつつ適応性を向上する。
既存の安全アライメント手法は、複雑なパラメータシフトを捉えるのに苦労し、最適化された安全性とユーティリティのトレードオフにつながる。
安全性を弱めるLoRA層を選択的に除去する新しいプルーニングベースアプローチであるSafe Pruning LoRA(SPLoRA)を提案する。
論文 参考訳(メタデータ) (2025-06-21T14:59:54Z) - Why LLM Safety Guardrails Collapse After Fine-tuning: A Similarity Analysis Between Alignment and Fine-tuning Datasets [64.96967819446553]
本稿では,上流アライメントデータセットと下流微調整タスクの表現類似性のレンズによる安全ガードレールの劣化について検討する。
これらのデータセット間の高い類似性は、安全ガードレールを著しく弱め、モデルがジェイルブレイクの影響を受けやすくする。
これら2種類のデータセット間の類似性が低いと、より堅牢なモデルが得られ、有害度スコアが最大10.33%減少する。
論文 参考訳(メタデータ) (2025-06-05T17:59:55Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。
そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:03:51Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z) - Fine-tuning Aligned Language Models Compromises Safety, Even When Users
Do Not Intend To! [88.90694413503614]
LLMの安全性は微調整によって損なわれる可能性がある。
我々は、GPT-3.5の安全ガードレールを10種類の例で微調整することで、脱獄した。
我々は、協調LLMのカスタム微調整のための安全プロトコルの強化に向けたさらなる研究を提唱する。
論文 参考訳(メタデータ) (2023-10-05T17:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。