論文の概要: Analysing the Safety Pitfalls of Steering Vectors
- arxiv url: http://arxiv.org/abs/2603.24543v1
- Date: Wed, 25 Mar 2026 17:16:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.406317
- Title: Analysing the Safety Pitfalls of Steering Vectors
- Title(参考訳): ステアリングベクトルの安全落とし穴の解析
- Authors: Yuxiao Li, Alina Fastowski, Efstratios Zaradoukas, Bardh Prenkaj, Gjergji Kasneci,
- Abstract要約: アクティベーションステアリングは、重量更新を必要とせずにLCMの動作を形作る強力なツールとして登場した。
本稿では,Contrastive Activation Addition (CAA) を用いて得られたステアリングベクトルの系統的安全監査について述べる。
単純なテンプレートベースの攻撃では, ステアリングベクターがジェイルブレイク攻撃の成功率に一貫した影響を与え, 増幅が強くなることを示す。
- 参考スコア(独自算出の注目度): 19.424564915366847
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Activation steering has emerged as a powerful tool to shape LLM behavior without the need for weight updates. While its inherent brittleness and unreliability are well-documented, its safety implications remain underexplored. In this work, we present a systematic safety audit of steering vectors obtained with Contrastive Activation Addition (CAA), a widely used steering approach, under a unified evaluation protocol. Using JailbreakBench as benchmark, we show that steering vectors consistently influence the success rate of jailbreak attacks, with stronger amplification under simple template-based attacks. Across LLM families and sizes, steering the model in specific directions can drastically increase (up to 57%) or decrease (up to 50%) its attack success rate (ASR), depending on the targeted behavior. We attribute this phenomenon to the overlap between the steering vectors and the latent directions of refusal behavior. Thus, we offer a traceable explanation for this discovery. Together, our findings reveal the previously unobserved origin of this safety gap in LLMs, highlighting a trade-off between controllability and safety.
- Abstract(参考訳): アクティベーションステアリングは、重量更新を必要とせずにLCMの動作を形作る強力なツールとして登場した。
その固有の脆さと信頼性の欠如は十分に文書化されているが、その安全性は未解明のままである。
本研究では,Contrastive Activation Addition (CAA) を用いて得られたステアリングベクトルの系統的安全監査を行う。
JailbreakBenchをベンチマークとして、単純なテンプレートベースの攻撃で強化された増幅により、ステアリングベクターが継続的にジェイルブレイク攻撃の成功率に影響を与えることを示す。
LLMファミリーとサイズ全体において、特定の方向にモデルを操る場合、ターゲットの行動に応じて、その攻撃成功率(ASR)が劇的に増加(最大57%)または減少(最大50%)する可能性がある。
この現象は、操舵ベクトルと拒絶行動の潜伏方向の重なりによるものである。
したがって、我々はこの発見について追跡可能な説明をする。
本研究は, 制御性と安全性のトレードオフを浮き彫りにして, LLMにおけるこの安全ギャップの既往の原点を明らかにした。
関連論文リスト
- Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models [62.16655896700062]
活性化ステアリングは大規模言語モデル(LLM)の有用性を高める技術である
重要かつ過度に調査された安全リスクを無意識に導入することを示します。
実験によると、これらの介入は強制乗算器として機能し、ジェイルブレイクに新たな脆弱性を発生させ、標準ベンチマークで攻撃成功率を80%以上向上させる。
論文 参考訳(メタデータ) (2026-02-03T12:32:35Z) - When Models Outthink Their Safety: Mitigating Self-Jailbreak in Large Reasoning Models with Chain-of-Guardrails [74.63933201261595]
大規模推論モデル(LRM)は複雑な推論タスクにおいて顕著な能力を示す。
LRMは、有害なコンテンツ生成やジェイルブレイク攻撃など、深刻な安全リスクに弱いままである。
安全でない推論ステップを再構成またはバックトラックするトレーニングフレームワークであるChain-of-Guardrail(CoG)を提案する。
論文 参考訳(メタデータ) (2025-10-24T09:32:25Z) - The Rogue Scalpel: Activation Steering Compromises LLM Safety [11.402179030703188]
アクティベーションステアリング(Activation steering)は、推論中にモデルの隠れ状態に直接意味論的意味のあるベクトルを追加することによって、LCMの動作を制御する技術である。
ステアリングはモデルアライメントの保護を系統的に破り、有害な要求に従わせる。
論文 参考訳(メタデータ) (2025-09-26T08:49:47Z) - Anchoring Refusal Direction: Mitigating Safety Risks in Tuning via Projection Constraint [52.878820730054365]
インストラクションファインチューニング(IFT)は,大規模言語モデル(LLM)の能力向上のための効果的なポストトレーニング戦略として広く採用されている。
LLMの内部機構に関する最近の研究は、隠蔽状態における拒絶方向(r方向)を同定し、拒絶行動の制御において重要な役割を担っている。
このようなドリフトを緩和するため,提案手法では,各トレーニングサンプルの隠れ状態のr方向への投射の大きさを規則化する投射制約損失項を導入する。
論文 参考訳(メタデータ) (2025-09-08T15:24:33Z) - Probing the Robustness of Large Language Models Safety to Latent Perturbations [30.16804362984161]
安全アライメントは、信頼できる人工知能を構築する上で重要な要件である。
我々は、小さな潜伏シフトが、整列モデルにおける安全でない応答を引き起こすことを観察する。
学習中に隠された表現に制御された摂動を注入する微調整戦略であるLayer-wise Adversarial Patch Training (LAPT)を導入する。
論文 参考訳(メタデータ) (2025-06-19T07:03:05Z) - AlphaSteer: Learning Refusal Steering with Principled Null-Space Constraint [49.641959856967276]
提案手法はAlphaSteerと呼ばれる,理論的に基礎的かつ実験的に有効なアクティベーションステアリング法である。
ユーティリティ保存のために、Null-space制約を使って、良性データのステアリングのためのほぼゼロベクトルを構築することを学ぶ。
複数のjailbreak攻撃とユーティリティベンチマークの実験は、AlphaSteerの有効性を示している。
論文 参考訳(メタデータ) (2025-06-08T07:03:28Z) - SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - Trojan Activation Attack: Red-Teaming Large Language Models using Activation Steering for Safety-Alignment [31.24530091590395]
本研究では,大規模言語モデルの活性化層にトロイの木馬ステアリングベクトルを注入する,Trojan Activation Attack (TA2) と呼ばれる攻撃シナリオについて検討する。
実験の結果,TA2は高効率であり,攻撃効率のオーバーヘッドがほとんどあるいは全くないことがわかった。
論文 参考訳(メタデータ) (2023-11-15T23:07:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。