論文の概要: Turning the Spell Around: Lightweight Alignment Amplification via Rank-One Safety Injection
- arxiv url: http://arxiv.org/abs/2508.20766v1
- Date: Thu, 28 Aug 2025 13:22:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.418625
- Title: Turning the Spell Around: Lightweight Alignment Amplification via Rank-One Safety Injection
- Title(参考訳): スペルを回す: ランクワンの安全注入による軽量アライメント増幅
- Authors: Harethah Abu Shairah, Hasan Abed Al Kader Hammoud, George Turkiyyah, Bernard Ghanem,
- Abstract要約: 大規模言語モデル(LLM)における安全性の整合性は、しばしば有害な要求を拒否するために内部表現を仲介する。
近年の研究では、これらの安全メカニズムは特定の表現方向を非難したり削除したりすることで回避可能であることが示されている。
そこで本研究では,リファレンシャル・メディア・サブスペースへのアクティベーションを永久に操り,モデルの安全アライメントを向上する手法であるランクワン・セーフティ・インジェクション(ROSI)を提案する。
- 参考スコア(独自算出の注目度): 47.347413305965006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety alignment in Large Language Models (LLMs) often involves mediating internal representations to refuse harmful requests. Recent research has demonstrated that these safety mechanisms can be bypassed by ablating or removing specific representational directions within the model. In this paper, we propose the opposite approach: Rank-One Safety Injection (ROSI), a white-box method that amplifies a model's safety alignment by permanently steering its activations toward the refusal-mediating subspace. ROSI operates as a simple, fine-tuning-free rank-one weight modification applied to all residual stream write matrices. The required safety direction can be computed from a small set of harmful and harmless instruction pairs. We show that ROSI consistently increases safety refusal rates - as evaluated by Llama Guard 3 - while preserving the utility of the model on standard benchmarks such as MMLU, HellaSwag, and Arc. Furthermore, we show that ROSI can also re-align 'uncensored' models by amplifying their own latent safety directions, demonstrating its utility as an effective last-mile safety procedure. Our results suggest that targeted, interpretable weight steering is a cheap and potent mechanism to improve LLM safety, complementing more resource-intensive fine-tuning paradigms.
- Abstract(参考訳): 大規模言語モデル(LLM)における安全性の整合性は、しばしば有害な要求を拒否するために内部表現を仲介する。
近年の研究では、これらの安全メカニズムはモデル内の特定の表現方向を識別または除去することで回避可能であることが示されている。
そこで本稿では, モデル内の安全アライメントを永久に制御することで, モデルの安全アライメントを向上する手法であるRight-One Safety Injection (ROSI)を提案する。
ROSIは、すべての残留ストリーム書き込み行列に適用される単純な、微調整不要なランク1の重み付けとして機能する。
必要な安全方向は、有害で無害な命令ペアの小さなセットから計算することができる。
Llama Guard 3で評価されたROSIは,MMLU,HellaSwag,Arcなどの標準ベンチマーク上でモデルの実用性を維持しつつ,安全性の低下率を一貫して向上させることを示す。
さらに, ROSIは, 自己の潜伏する安全方向を増幅し, 有効ラストマイル安全手順としての有用性を示すことにより, アンセンソルドモデルの再調整も可能であることを示す。
本研究は,LLMの安全性を向上し,より資源集約的な微調整パラダイムを補完する,安価で強力な機構であることを示唆する。
関連論文リスト
- Shape it Up! Restoring LLM Safety during Finetuning [66.46166656543761]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - Advancing LLM Safe Alignment with Safety Representation Ranking [21.525021778951313]
モデル自体から隠れ状態を用いて安全な応答を選択するリストワイズランキングフレームワークを提案する。
本手法は、内部モデル状態とリストレベルの監督を直接利用して、微妙な安全信号を捕捉する。
論文 参考訳(メタデータ) (2025-05-21T16:21:29Z) - Superficial Safety Alignment Hypothesis [8.297367440457508]
本稿では,安全アライメントが安全でないモデルに正しい推論方向を選択するよう教えるべきであるとする,表向きの安全アライメント仮説(SSAH)を提案する。
安全に整合した大言語モデル(LLM)における属性クリティカルな4つのコンポーネントを同定する。
本研究は,特定の安全クリティカル成分の凍結を微調整中に行うことにより,新しい作業に適応しつつ,その安全性特性を維持できることを示した。
論文 参考訳(メタデータ) (2024-10-07T19:53:35Z) - SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。