論文の概要: Surgical Refusal Ablation: Disentangling Safety from Intelligence via Concept-Guided Spectral Cleaning
- arxiv url: http://arxiv.org/abs/2601.08489v1
- Date: Tue, 13 Jan 2026 12:21:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.188573
- Title: Surgical Refusal Ablation: Disentangling Safety from Intelligence via Concept-Guided Spectral Cleaning
- Title(参考訳): 外科的拒絶:コンセプトガイドによる分光浄化による知能の安全性の確保
- Authors: Tony Cristofano,
- Abstract要約: 安全に配慮した言語モデルは、有害な要求を体系的に拒否する。
この分解は、原ベクトルが多意味であるからである。
我々は,これらの操舵方向を蒸留するために,外科的拒絶アブレーションを導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety-aligned language models systematically refuse harmful requests. While activation steering can modulate refusal, ablating the raw "refusal vector" calculated from contrastive harmful and harmless prompts often causes collateral damage and distribution drift. We argue this degradation occurs because the raw vector is polysemantic, entangling the refusal signal with core capability circuits and linguistic style. We introduce Surgical Refusal Ablation (SRA) to distill these steering directions. SRA constructs a registry of independent Concept Atoms representing protected capabilities and stylistic confounds, then uses ridge-regularized spectral residualization to orthogonalize the refusal vector against these directions. This yields a clean refusal direction that targets refusal-relevant structure while minimizing disruption to the model's semantic geometry. Across five models (Qwen3-VL and Ministral series), SRA achieves deep refusal reduction (0-2%) with negligible perplexity impact on Wikitext-2 (mean delta PPL approx. 0.02) and minimal distribution drift. Notably, standard ablation on Qwen3-VL-4B induces severe drift (first-token KL = 2.088), whereas SRA maintains the original distribution (KL = 0.044) while achieving the same 0% refusal rate. Using teacher-forced perplexity on GSM8K and MBPP as a high-resolution capability proxy, we show SRA preserves math and code distributions. These results suggest that common "model damage" is often "Ghost Noise," defined as the spectral bleeding of the dirty refusal direction into capability subspaces.
- Abstract(参考訳): 安全に配慮した言語モデルは、有害な要求を体系的に拒否する。
アクティベーションステアリングは拒絶を調節できるが、対照的な有害かつ無害なプロンプトから計算された生の「拒絶ベクトル」を非難することは、しばしば副次的な損傷と分布のドリフトを引き起こす。
この劣化は、原ベクトルが多意味であり、拒絶信号とコア機能回路と言語的スタイルが絡み合っているためである。
我々はこれらの操舵方向を蒸留するために外科的拒絶療法(SRA)を導入する。
SRAは、保護された能力とスタイリスティックな欠点を表す独立した概念Atomのレジストリを構築し、リッジ規則化されたスペクトル残差化を使用して、これらの方向に対する拒絶ベクトルの直交化を行う。
これにより、モデルの意味幾何学の破壊を最小限に抑えつつ、拒絶関連構造を標的としたクリーンな拒絶方向が得られる。
5つのモデル(Qwen3-VL と Ministral シリーズ)で SRA は Wikitext-2 (平均 delta PPL approx. 0.02) に無視できるパープレキシティの影響と最小分布ドリフトで、深い拒絶率 (0-2%) を達成する。
特に、Qwen3-VL-4Bの標準アブレーションは、強いドリフト(第1トーケンKL = 2.088)を誘導する一方、SRAは元の分布(KL = 0.044)を維持しながら、同じ0%の拒絶率を達成する。
GSM8KとMBPPの教師強化パープレキシティを高分解能プロキシとして使用することにより、SRAは数学とコード分布を保存できることを示す。
これらの結果は、一般的な「モデル損傷」は、しばしば「ゴーストノイズ」と定義され、汚れた拒絶方向のスペクトル的出血を機能的部分空間に導くことを示唆している。
関連論文リスト
- Why LoRA Fails to Forget: Regularized Low-Rank Adaptation Against Backdoors in Language Models [5.957171492626586]
Low-Rank Adaptation (LoRA) は大規模言語モデルのパラメータ効率の良い微調整に広く用いられている。
LoRAの脆弱性は基本的にスペクトルであることを示す。
正規化低ランク適応(RoRA)は、スペクトル強度を増大させることにより、忘れを改善する。
論文 参考訳(メタデータ) (2026-01-09T20:54:47Z) - Differentiated Directional Intervention A Framework for Evading LLM Safety Alignment [7.145846466297704]
大規模言語モデルには、悪意のある要求を拒否する能力が備わっている。
以前の研究は、この拒絶機構を活性化空間の1つの線形方向としてモデル化していた。
我々は,臨界層における安全アライメントを正確に中和する新しいホワイトボックスフレームワークDBDIを導入する。
論文 参考訳(メタデータ) (2025-11-10T08:52:34Z) - The Rogue Scalpel: Activation Steering Compromises LLM Safety [11.402179030703188]
アクティベーションステアリング(Activation steering)は、推論中にモデルの隠れ状態に直接意味論的意味のあるベクトルを追加することによって、LCMの動作を制御する技術である。
ステアリングはモデルアライメントの保護を系統的に破り、有害な要求に従わせる。
論文 参考訳(メタデータ) (2025-09-26T08:49:47Z) - The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward [57.56453588632619]
Reinforcement Learning with Verifiable Reward (RLVR) を用いた細調整大型言語モデル(LLM)における中心的パラドックスは、多目的性能の頻繁な劣化である。
これはしばしば破滅的な忘れが伴い、モデルが以前獲得したスキルを失う。
我々は,標準RLVR目標には知識保持のための重要なメカニズムが欠如していると主張している。
論文 参考訳(メタデータ) (2025-09-09T06:34:32Z) - Poison Once, Refuse Forever: Weaponizing Alignment for Injecting Bias in LLMs [5.282422823698107]
大規模言語モデル(LLM)は、有害または安全でないプロンプトへの回答を拒否するように訓練することで、倫理的基準と安全要件を満たすように調整されている。
本稿では, 敵がLLMのアライメントを利用してインプラントバイアスを発生させるか, あるいはターゲット検閲を強制するかを実証する。
論文 参考訳(メタデータ) (2025-08-28T00:30:25Z) - SRD: Reinforcement-Learned Semantic Perturbation for Backdoor Defense in VLMs [57.880467106470775]
攻撃者は、トレーニングデータに知覚不能な摂動を注入することができ、モデルが悪意のある攻撃的制御されたキャプションを生成する。
本稿では,引き金の事前知識を伴わずにバックドア動作を緩和する強化学習フレームワークであるセマンティック・リワード・ディフェンス(SRD)を提案する。
SRDはDeep Q-Networkを使用して、機密画像領域に個別の摂動を適用するためのポリシーを学習し、悪意ある経路の活性化を妨害することを目的としている。
論文 参考訳(メタデータ) (2025-06-05T08:22:24Z) - REINFORCE Adversarial Attacks on Large Language Models: An Adaptive, Distributional, and Semantic Objective [57.57786477441956]
応答の個体群に対する適応的・意味的最適化問題を提案する。
我々の目標は、Llama3の攻撃成功率(ASR)を2倍にし、サーキットブレーカー防御でASRを2%から50%に向上させることである。
論文 参考訳(メタデータ) (2025-02-24T15:34:48Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - Subspace Defense: Discarding Adversarial Perturbations by Learning a Subspace for Clean Signals [52.123343364599094]
敵の攻撃は、正常な例に基づいて慎重に摂動を行い、ディープニューラルネットワーク(DNN)を騙す
まず,低次元線形部分空間において,クリーン信号と逆方向の摂動の特徴が冗長であり,重なりが最小であることを示す。
これにより、DNNは、摂動が破棄されている間、クリーン信号の特徴のみが存在する部分空間を学習することができる。
論文 参考訳(メタデータ) (2024-03-24T14:35:44Z) - Discriminator-Free Generative Adversarial Attack [87.71852388383242]
生成的ベースの敵攻撃は、この制限を取り除くことができる。
ASymmetric Saliency-based Auto-Encoder (SSAE) は摂動を生成する。
SSAEが生成した敵の例は、広く使われているモデルを崩壊させるだけでなく、優れた視覚的品質を実現する。
論文 参考訳(メタデータ) (2021-07-20T01:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。