論文の概要: Safety Anchor: Defending Harmful Fine-tuning via Geometric Bottlenecks
- arxiv url: http://arxiv.org/abs/2605.05995v1
- Date: Thu, 07 May 2026 10:47:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.705442
- Title: Safety Anchor: Defending Harmful Fine-tuning via Geometric Bottlenecks
- Title(参考訳): 安全アンカー:幾何学的ボツネックによる有害な微調整を防げる
- Authors: Guoxin Lu, Letian Sha, Qing Wang, Peijie Sun, Hao Zhou, Hua Dai, Fu Xiao,
- Abstract要約: 大規模言語モデル(LLM)の安全性アライメントは、HFT(Harmful Fine-tuning)に弱いままである。
本稿では,防御焦点を冗長なパラメータ空間からアンエンベディング層へシフトさせる安全ボトルネック規則化(SBR)を提案する。
SBRは、持続的なHFTの下でも安全な応答を維持することができる。
- 参考スコア(独自算出の注目度): 17.589295348925855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The safety alignment of Large Language Models (LLMs) remains vulnerable to Harmful Fine-tuning (HFT). While existing defenses impose constraints on parameters, gradients, or internal representations, we observe that they can be effectively circumvented under persistent HFT. Our analysis traces this failure to the inherent redundancy of the high-dimensional parameter space: attackers exploit optimization trajectories that are orthogonal to defense constraints to restore harmful capabilities while deceptively adhering to safety restrictions. To address this, we propose Safety Bottleneck Regularization (SBR). SBR shifts the defensive focus from the redundant parameter space to the unembedding layer, which serves as a geometric bottleneck. By anchoring the final hidden states of harmful queries to those of the safety-aligned model, SBR enables the model to maintain safe responses even under persistent HFT. Extensive experiments confirm SBR's effectiveness, demonstrating that utilizing just a single safety anchor is sufficient to reduce the Harmful Score to $<$10 while preserving competitive performance on benign downstream tasks.
- Abstract(参考訳): LLM(Large Language Models)の安全性アライメントは、Harmful Fine-tuning (HFT) に弱いままである。
既存の防御はパラメータ、勾配、内部表現に制約を課すが、持続的HFTの下で効果的に回避できることを観察する。
攻撃者は、防御的制約に直交する最適化トラジェクトリを利用して、有害な能力を回復し、安全上の制約に着目する。
そこで,本稿では,SBR(Safety Bottleneck Regularization)を提案する。
SBRは、防御焦点を冗長パラメータ空間からアンエンベディング層にシフトし、幾何学的ボトルネックとなる。
SBRは、有害なクエリの最終的な隠蔽状態を安全整列モデルに固定することにより、持続的HFTでも安全な応答を維持することができる。
大規模な実験によりSBRの有効性が確認され、単一の安全アンカーを利用することでHarmful Scoreを10ドルまで値下げできる一方で、良質な下流タスクの競争性能を保っていることが証明された。
関連論文リスト
- RefusalGuard: Geometry-Preserving Fine-Tuning for Safety in LLMs [5.100622189286672]
下流タスクのための微調整型セーフティアライメント言語モデルは、拒否動作を著しく低下させる可能性がある。
本稿では,モデル適応時の安全関連構造を保存する表現レベルの微調整フレームワークREFUSALGUARDを紹介する。
論文 参考訳(メタデータ) (2026-05-03T14:48:18Z) - BarrierSteer: LLM Safety via Learning Barrier Steering [83.12893815611052]
BarrierSteerは、学習した非線形安全性制約を直接モデルの潜在表現空間に埋め込むことで、安全性を形式化する新しいフレームワークである。
BarrierSteerは、敵の成功率を大幅に低下させ、安全でない世代を減少させ、既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2026-02-23T18:19:46Z) - Understanding and Preserving Safety in Fine-Tuned LLMs [20.821783178639063]
微調整データが無害であっても、微調整は安全性を著しく低下させる可能性がある。
低ランクな安全部分空間と矛盾する勾配成分を明示的に除去する軽量なアプローチSPFを提案する。
SPFは、ダウンストリームタスクのパフォーマンスを一貫して維持し、敵の微調整シナリオであっても、トレーニング済みのほぼすべての安全アライメントを回復する。
論文 参考訳(メタデータ) (2026-01-15T07:33:13Z) - Q-realign: Piggybacking Realignment on Quantization for Safe and Efficient LLM Deployment [55.14890249389052]
既存の防衛は、安全回復を微調整に埋め込んだり、微調整による修正に先立って微調整に頼ったりしている。
我々は,ポストトレーニング量子化に基づくポストホック防御手法であるtextttQ-realign を提案する。
私たちの仕事は、安全を意識したデプロイメントのための実践的でターンキーなソリューションを提供します。
論文 参考訳(メタデータ) (2026-01-13T00:07:24Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Safe Pruning LoRA: Robust Distance-Guided Pruning for Safety Alignment in Adaptation of LLMs [4.580092836731863]
Low-Rank Adaptation (LoRA) を用いた細調整大型言語モデル(LLM)は、計算コストを削減しつつ適応性を向上する。
既存の安全アライメント手法は、複雑なパラメータシフトを捉えるのに苦労し、最適化された安全性とユーティリティのトレードオフにつながる。
安全性を弱めるLoRA層を選択的に除去する新しいプルーニングベースアプローチであるSafe Pruning LoRA(SPLoRA)を提案する。
論文 参考訳(メタデータ) (2025-06-21T14:59:54Z) - LoX: Low-Rank Extrapolation Robustifies LLM Safety Against Fine-tuning [61.594212398272184]
Low-Rank Extrapolation (LoX)は、良質で悪意のある微調整攻撃に対する堅牢性を改善する。
LoXは攻撃成功率を11%から54%に下げる。
論文 参考訳(メタデータ) (2025-06-18T16:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。