論文の概要: Surgery: Mitigating Harmful Fine-Tuning for Large Language Models via Attention Sink
- arxiv url: http://arxiv.org/abs/2602.05228v1
- Date: Thu, 05 Feb 2026 02:38:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.726543
- Title: Surgery: Mitigating Harmful Fine-Tuning for Large Language Models via Attention Sink
- Title(参考訳): 手術:注意シンクによる大規模言語モデルの有害な微調整の軽減
- Authors: Guozhi Liu, Weiwei Lin, Tiansheng Huang, Ruichao Mo, Qi Mu, Xiumin Wang, Li Shen,
- Abstract要約: 有害な微調整は、大きな言語モデルの安全性アライメントを無効にする可能性がある。
そこで我々は, 有害な微調整を緩和するために, 手術と呼ばれる微調整段階の防御法を提案する。
- 参考スコア(独自算出の注目度): 18.017483571676973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Harmful fine-tuning can invalidate safety alignment of large language models, exposing significant safety risks. In this paper, we utilize the attention sink mechanism to mitigate harmful fine-tuning. Specifically, we first measure a statistic named \emph{sink divergence} for each attention head and observe that \emph{different attention heads exhibit two different signs of sink divergence}. To understand its safety implications, we conduct experiments and find that the number of attention heads of positive sink divergence increases along with the increase of the model's harmfulness when undergoing harmful fine-tuning. Based on this finding, we propose a separable sink divergence hypothesis -- \emph{attention heads associating with learning harmful patterns during fine-tuning are separable by their sign of sink divergence}. Based on the hypothesis, we propose a fine-tuning-stage defense, dubbed Surgery. Surgery utilizes a regularizer for sink divergence suppression, which steers attention heads toward the negative sink divergence group, thereby reducing the model's tendency to learn and amplify harmful patterns. Extensive experiments demonstrate that Surgery improves defense performance by 5.90\%, 11.25\%, and 9.55\% on the BeaverTails, HarmBench, and SorryBench benchmarks, respectively. Source code is available on https://github.com/Lslland/Surgery.
- Abstract(参考訳): 有害な微調整は、大きな言語モデルの安全性アライメントを無効にし、重大な安全性リスクを露呈する。
本稿では,アテンションシンク機構を利用して有害な微調整を緩和する。
具体的には,まず,各アテンションヘッドについて,'emph{sink divergence} という統計値を測定し,'emph{different attention head' が2つの異なるシンク発散の兆候を示すことを示した。
その安全性の意義を理解するため,実験を行い,有害な微調整を行う際のモデル有害性の増加とともに,正の沈み込み拡散の注意点数が増加することを示した。
そこで本研究では, 微調整中に有害なパターンを学習する際, 流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し流し
本仮説に基づいて,手術と呼ばれる微細調整段階の防御法を提案する。
手術では、正則化器を用いて、負のシンク発散群に注意を向け、有害なパターンを学習し増幅する傾向を減少させる。
大規模な実験により、手術はビーバータイルズ、ハームベンチ、ソリーベンチのベンチマークでそれぞれ5.90 %、11.25 %、9.55 %の防衛性能を向上させることが示された。
ソースコードはhttps://github.com/Lslland/Surgery.comで入手できる。
関連論文リスト
- A Unified View of Attention and Residual Sinks: Outlier-Driven Rescaling is Essential for Transformer Training [86.64715217940274]
外接線は正規化と共に機能する。
アウトリーチは、コントリビュータではなく、再スケール要因として役立ちます。
外乱は学習可能なパラメータに吸収されるか、明示的なゲート再スケーリングによって緩和される。
論文 参考訳(メタデータ) (2026-01-30T13:29:45Z) - Panacea: Mitigating Harmful Fine-tuning for Large Language Models via Post-fine-tuning Perturbation [58.7395356511539]
有害な微調整攻撃は、微調整サービスに重大なセキュリティリスクをもたらす。
主流防衛は、後の有害な微調整攻撃がより効果的でないように、モデルを予防接種することを目的としている。
微調整後のモデルに適用可能な適応的摂動を最適化するパナセアを提案する。
論文 参考訳(メタデータ) (2025-01-30T02:47:09Z) - Booster: Tackling Harmful Fine-tuning for Large Language Models via Attenuating Harmful Perturbation [7.945893812374361]
有害な微調整攻撃は、大規模言語モデルの微調整・アズ・ア・サービスに対して深刻な安全上の懸念をもたらす。
本稿では,モデル重量に対する有害な摂動がアライメント破壊の原因となる可能性が示唆された。
有害な摂動の負の影響を軽減するために,Boosterと呼ばれるアライメントステージソリューションを提案する。
論文 参考訳(メタデータ) (2024-09-03T03:59:22Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - Mutual Wasserstein Discrepancy Minimization for Sequential
Recommendation [82.0801585843835]
逐次リコメンデーションのためのMutual WasserStein差分最小化MSteinに基づく新しい自己教師型学習フレームワークを提案する。
また,ワッサーシュタイン離散度測定に基づく新しい学習損失を提案する。
論文 参考訳(メタデータ) (2023-01-28T13:38:48Z) - Characterizing and addressing the issue of oversmoothing in neural
autoregressive sequence modeling [49.06391831200667]
提案手法がモデル分布と復号化性能に与える影響について検討する。
神経自己回帰モデルにおいて,過度に持続可能な短い配列が生じる主な原因は,高次スムージングが原因であると結論付けている。
論文 参考訳(メタデータ) (2021-12-16T14:33:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。