論文の概要: SafeAnchor: Preventing Cumulative Safety Erosion in Continual Domain Adaptation of Large Language Models
- arxiv url: http://arxiv.org/abs/2604.17691v1
- Date: Mon, 20 Apr 2026 01:13:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.63993
- Title: SafeAnchor: Preventing Cumulative Safety Erosion in Continual Domain Adaptation of Large Language Models
- Title(参考訳): SafeAnchor:大規模言語モデルの連続ドメイン適応における累積的安全侵食防止
- Authors: Dongxin Guo, Jikun Wu, Siu Ming Yiu,
- Abstract要約: SafeAnchorは継続的適応を通じて安全を固定するフレームワークです。
Llama-2-7B-ChatとMistral-7B-Instructで評価され、SafeAnchorは元の安全アライメントの93.2%を維持している。
- 参考スコア(独自算出の注目度): 13.891522069967507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety alignment in large language models is remarkably shallow: it is concentrated in the first few output tokens and reversible by fine-tuning on as few as 100 adversarial examples. This fragility becomes critical in real-world deployment, where models undergo sequential adaptation across domains such as medicine, law, and code, causing safety guardrails to erode cumulatively. Yet all existing safety-preserving methods target only single-task fine-tuning, leaving the multi-domain sequential setting entirely unaddressed. We introduce SafeAnchor, a framework that anchors safety in place throughout continual adaptation. SafeAnchor first identifies low-rank safety subspaces in LoRA parameter space via Fisher Information eigendecomposition, then constrains domain-specific gradient updates to the orthogonal complement of these subspaces, and finally monitors for residual safety drift with threshold-triggered corrective replay. Evaluated on Llama-2-7B-Chat and Mistral-7B-Instruct across a three-domain pipeline and eight benchmarks, SafeAnchor retains 93.2% of original safety alignment, outperforming all baselines by 18-42 points, while matching unconstrained fine-tuning to within 1.5 points on domain tasks.
- Abstract(参考訳): 大規模な言語モデルの安全性のアライメントは極めて浅く、最初の数個の出力トークンに集中しており、100個の敵の例を微調整することで可逆性を持つ。
この脆弱性は、医療、法律、コードなどの領域に順次適応したモデルによって、安全ガードレールが累積的に消滅する、現実世界のデプロイメントにおいて重要になる。
しかし、既存の安全保持手法はすべてシングルタスクの微調整のみをターゲットにしており、マルチドメインのシーケンシャル設定は完全に変更されていない。
セーフアンカー(SafeAnchor)は、継続的適応を通じて安全を固定するフレームワークである。
SafeAnchorはまず、Fisher Information eigen Decompositionを介してLoRAパラメータ空間内の低ランクの安全部分空間を特定し、その後、これらの部分空間の直交補空間へのドメイン固有の勾配更新を制限し、最後に閾値トリガー付き修正リプレイによる残留安全ドリフトの監視を行う。
Llama-2-7B-ChatとMistral-7B-Instructを3ドメインのパイプラインと8つのベンチマークで評価し、SafeAnchorは93.2%の安全性を維持し、全てのベースラインを18-42ポイント上回った。
関連論文リスト
- Safety Alignment as Continual Learning: Mitigating the Alignment Tax via Orthogonal Gradient Projection [52.551864761088574]
大規模言語モデル(LLM)は、しばしばアライメント税を課す。
この税は、主に連続的な順序で学習スタイルを忘れることから生じると我々は主張する。
我々は, 塑性と安定性のバランスをとるために, OGPSA (Orthogonal Gradient Projection for Safety Alignment) を提案する。
論文 参考訳(メタデータ) (2026-02-08T09:53:46Z) - Understanding and Preserving Safety in Fine-Tuned LLMs [20.821783178639063]
微調整データが無害であっても、微調整は安全性を著しく低下させる可能性がある。
低ランクな安全部分空間と矛盾する勾配成分を明示的に除去する軽量なアプローチSPFを提案する。
SPFは、ダウンストリームタスクのパフォーマンスを一貫して維持し、敵の微調整シナリオであっても、トレーニング済みのほぼすべての安全アライメントを回復する。
論文 参考訳(メタデータ) (2026-01-15T07:33:13Z) - Q-realign: Piggybacking Realignment on Quantization for Safe and Efficient LLM Deployment [55.14890249389052]
既存の防衛は、安全回復を微調整に埋め込んだり、微調整による修正に先立って微調整に頼ったりしている。
我々は,ポストトレーニング量子化に基づくポストホック防御手法であるtextttQ-realign を提案する。
私たちの仕事は、安全を意識したデプロイメントのための実践的でターンキーなソリューションを提供します。
論文 参考訳(メタデータ) (2026-01-13T00:07:24Z) - Interpretable Safety Alignment via SAE-Constructed Low-Rank Subspace Adaptation [13.509767769174422]
大規模な言語モデルをトレーニングし、有害な要求を拒否するためには、安全性の調整が不可欠である。
Low-Rank Adaptation (LoRA) は、安全ベンチマークにおける完全な微調整と強化学習を一貫して過小評価している。
このギャップに対処するため、SAILS (Safety Alignment via Interpretable Low-rank Subspace)を提案する。
論文 参考訳(メタデータ) (2025-12-29T07:39:49Z) - SafeR-CLIP: Mitigating NSFW Content in Vision-Language Models While Preserving Pre-Trained Knowledge [51.634837361795434]
SaFeR-CLIPは安全性と性能を調整し、以前の方法に比べて最大8.0%のゼロショット精度を回復する。
NSFW-Capsは、分散シフト下での安全性をテストするために、1000の高度に整合したペアの新しいベンチマークである。
論文 参考訳(メタデータ) (2025-11-20T19:00:15Z) - A Guardrail for Safety Preservation: When Safety-Sensitive Subspace Meets Harmful-Resistant Null-Space [91.99501941169831]
GuardSpaceは、微調整全体を通して安全アライメントを維持するためのガードレールフレームワークである。
GSM8Kで微調整されたLlama-2-7B-Chatでは、ガードスペースは最先端のAsFTよりも優れている。
論文 参考訳(メタデータ) (2025-10-16T04:57:53Z) - Boundary-to-Region Supervision for Offline Safe Reinforcement Learning [56.150983204962735]
バウンダリ・トゥ・レギオン(Bundary-to-Region, B2R)は、コスト信号による非対称な条件付けを可能にするフレームワークである。
B2Rは、CTGを固定された安全予算の下で境界制約として再定義し、すべての実行可能な軌道のコスト分布を統一する。
実験の結果,B2Rは38項目中35項目の安全制約を満たすことがわかった。
論文 参考訳(メタデータ) (2025-09-30T03:38:20Z) - AlignGuard-LoRA: Alignment-Preserving Fine-Tuning via Fisher-Guided Decomposition and Riemannian-Geodesic Collision Regularization [6.5225344327304535]
低ランク適応(LoRA)は、大規模言語モデルを効率的に微調整するための標準ツールとなっている。
LoRA更新はアライメントドリフトを誘発し、安全性と行動制約を弱める。
ファインタニング時にアライメントを保存するための原則的フレームワークであるAlignGuard-LoRAを提案する。
論文 参考訳(メタデータ) (2025-08-04T05:45:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。