論文の概要: The Rogue Scalpel: Activation Steering Compromises LLM Safety
- arxiv url: http://arxiv.org/abs/2509.22067v1
- Date: Fri, 26 Sep 2025 08:49:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.312437
- Title: The Rogue Scalpel: Activation Steering Compromises LLM Safety
- Title(参考訳): Rogue Scalpel: Activation Steering Compromises LLM Safety
- Authors: Anton Korznikov, Andrey Galichin, Alexey Dontsov, Oleg Y. Rogov, Ivan Oseledets, Elena Tutubalina,
- Abstract要約: アクティベーションステアリング(Activation steering)は、推論中にモデルの隠れ状態に直接意味論的意味のあるベクトルを追加することによって、LCMの動作を制御する技術である。
ステアリングはモデルアライメントの保護を系統的に破り、有害な要求に従わせる。
- 参考スコア(独自算出の注目度): 11.402179030703188
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Activation steering is a promising technique for controlling LLM behavior by adding semantically meaningful vectors directly into a model's hidden states during inference. It is often framed as a precise, interpretable, and potentially safer alternative to fine-tuning. We demonstrate the opposite: steering systematically breaks model alignment safeguards, making it comply with harmful requests. Through extensive experiments on different model families, we show that even steering in a random direction can increase the probability of harmful compliance from 0% to 2-27%. Alarmingly, steering benign features from a sparse autoencoder (SAE), a common source of interpretable directions, increases these rates by a further 2-4%. Finally, we show that combining 20 randomly sampled vectors that jailbreak a single prompt creates a universal attack, significantly increasing harmful compliance on unseen requests. These results challenge the paradigm of safety through interpretability, showing that precise control over model internals does not guarantee precise control over model behavior.
- Abstract(参考訳): アクティベーションステアリング(Activation steering)は、推論中にモデルの隠れ状態に直接意味論的意味のあるベクトルを追加することによって、LCMの動作を制御するための有望な手法である。
しばしば、微調整の代わりとして、正確で解釈可能で、潜在的に安全であると見なされる。
ステアリングはモデルアライメントの保護を系統的に破り、有害な要求に従わせる。
異なるモデルファミリーに対する広範な実験により、ランダムな方向の操舵でも有害なコンプライアンスの確率が0%から2~27%に増加することを示した。
同様に、解釈可能な方向の共通源であるスパースオートエンコーダ(SAE)のベネグ特性は、さらに2-4%上昇する。
最後に、1つのプロンプトをジェイルブレイクする20個のランダムサンプリングベクターを組み合わせると、ユニバーサルアタックが発生し、目に見えない要求に対する有害なコンプライアンスが著しく増加することを示す。
これらの結果は、モデル内部の正確な制御がモデル挙動の正確な制御を保証していないことを示す、解釈可能性による安全性のパラダイムに挑戦する。
関連論文リスト
- LatentGuard: Controllable Latent Steering for Robust Refusal of Attacks and Reliable Response Generation [4.29885665563186]
LATENTGUARDは、行動アライメントと教師付き潜在空間制御を組み合わせて、解釈可能で正確な安全操縦を行うフレームワークである。
本研究は, 実用性を損なうことなく, 安全性制御性と応答解釈性の両方を向上することを示す。
論文 参考訳(メタデータ) (2025-09-24T07:31:54Z) - Turning the Spell Around: Lightweight Alignment Amplification via Rank-One Safety Injection [47.347413305965006]
大規模言語モデル(LLM)における安全性の整合性は、しばしば有害な要求を拒否するために内部表現を仲介する。
近年の研究では、これらの安全メカニズムは特定の表現方向を非難したり削除したりすることで回避可能であることが示されている。
そこで本研究では,リファレンシャル・メディア・サブスペースへのアクティベーションを永久に操り,モデルの安全アライメントを向上する手法であるランクワン・セーフティ・インジェクション(ROSI)を提案する。
論文 参考訳(メタデータ) (2025-08-28T13:22:33Z) - Watch the Weights: Unsupervised monitoring and control of fine-tuned LLMs [14.779177849006963]
細調整された大言語モデル(LLM)の理解・監視・制御のための新しい手法を提案する。
微調整モデルとそのベースモデルの間の重み差のトップ特異点が,新たに獲得した挙動に対応することを示す。
シークレットトリガーが存在する場合の安全メカニズムをバイパスするバックドアモデルでは、我々の手法は1.2%以下の偽陽性率で攻撃の最大100%を停止する。
論文 参考訳(メタデータ) (2025-07-31T21:04:12Z) - Anomalous Decision Discovery using Inverse Reinforcement Learning [3.3675535571071746]
異常検出は、知覚システムを通じて異常な行動を特定することによって、自律走行車(AV)において重要な役割を果たす。
現在のアプローチは、しばしば定義済みのしきい値や教師付き学習パラダイムに依存するが、目に見えないシナリオに直面すると効果が低下する。
異常検出のための新しいIRLフレームワークである Trajectory-Reward Guided Adaptive Pre-training (TRAP) を提案する。
論文 参考訳(メタデータ) (2025-07-06T17:01:02Z) - AdaSteer: Your Aligned LLM is Inherently an Adaptive Jailbreak Defender [99.3105257001476]
本稿では,入力特性に基づいてモデル動作を調整するアダプティブアクティベーションステアリング手法であるAdaSteerを提案する。
AdaSteer は Rejection Direction (RD) と Harmfulness Direction (HD) の両方に沿って入力表現を操る
本研究は,LLMにおけるリアルタイム・フレキシブル安全対策のための解釈可能なモデル内装の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-04-13T07:39:17Z) - SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。