論文の概要: AlphaSteer: Learning Refusal Steering with Principled Null-Space Constraint
- arxiv url: http://arxiv.org/abs/2506.07022v1
- Date: Sun, 08 Jun 2025 07:03:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.633977
- Title: AlphaSteer: Learning Refusal Steering with Principled Null-Space Constraint
- Title(参考訳): AlphaSteer: 原則付きNull空間制約によるリフレクションステアリングの学習
- Authors: Leheng Sheng, Changshuo Shen, Weixiang Zhao, Junfeng Fang, Xiaohao Liu, Zhenkai Liang, Xiang Wang, An Zhang, Tat-Seng Chua,
- Abstract要約: 提案手法はAlphaSteerと呼ばれる,理論的に基礎的かつ実験的に有効なアクティベーションステアリング法である。
ユーティリティ保存のために、Null-space制約を使って、良性データのステアリングのためのほぼゼロベクトルを構築することを学ぶ。
複数のjailbreak攻撃とユーティリティベンチマークの実験は、AlphaSteerの有効性を示している。
- 参考スコア(独自算出の注目度): 49.641959856967276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As LLMs are increasingly deployed in real-world applications, ensuring their ability to refuse malicious prompts, especially jailbreak attacks, is essential for safe and reliable use. Recently, activation steering has emerged as an effective approach for enhancing LLM safety by adding a refusal direction vector to internal activations of LLMs during inference, which will further induce the refusal behaviors of LLMs. However, indiscriminately applying activation steering fundamentally suffers from the trade-off between safety and utility, since the same steering vector can also lead to over-refusal and degraded performance on benign prompts. Although prior efforts, such as vector calibration and conditional steering, have attempted to mitigate this trade-off, their lack of theoretical grounding limits their robustness and effectiveness. To better address the trade-off between safety and utility, we present a theoretically grounded and empirically effective activation steering method called AlphaSteer. Specifically, it considers activation steering as a learnable process with two principled learning objectives: utility preservation and safety enhancement. For utility preservation, it learns to construct a nearly zero vector for steering benign data, with the null-space constraints. For safety enhancement, it learns to construct a refusal direction vector for steering malicious data, with the help of linear regression. Experiments across multiple jailbreak attacks and utility benchmarks demonstrate the effectiveness of AlphaSteer, which significantly improves the safety of LLMs without compromising general capabilities. Our codes are available at https://github.com/AlphaLab-USTC/AlphaSteer.
- Abstract(参考訳): LLMはますます現実世界のアプリケーションにデプロイされ、悪質なプロンプト、特にジェイルブレイク攻撃を拒否する能力を保証するため、安全で信頼性の高い使用には不可欠である。
近年,LDMの内部アクティベーションに拒絶方向ベクトルを付加することによりLCMの安全性を高めるための効果的な手法として活性化ステアリングが登場し,LCMの内部アクティベーションにさらなる拒絶挙動がもたらされる。
しかし、アクティベーションステアリングを無差別に適用することは、基本的に安全と実用のトレードオフに悩まされる。
ベクターキャリブレーションやコンディショナルステアリングといった以前の試みは、このトレードオフを緩和しようとしたが、理論的な根拠の欠如は、その堅牢性と有効性を制限した。
安全性と実用性の間のトレードオフをよりよく解決するために,AlphaSteer と呼ばれる理論的に根拠付き,実証的に有効なアクティベーションステアリング手法を提案する。
具体的には、アクティベーションステアリングを、実用性維持と安全性向上という2つの原則的な学習目標を持つ学習可能なプロセスとみなす。
ユーティリティ保存のために、Null-space制約を使って、良性データのステアリングのためのほぼゼロベクトルを構築することを学ぶ。
安全性向上のために、線形回帰の助けを借りて悪意のあるデータをステアリングするための拒絶方向ベクトルを構築することを学ぶ。
複数のjailbreak攻撃とユーティリティベンチマークの実験により、AlphaSteerの有効性が実証された。
私たちのコードはhttps://github.com/AlphaLab-USTC/AlphaSteer.comで公開されています。
関連論文リスト
- SafeSteer: Interpretable Safety Steering with Refusal-Evasion in LLMs [7.120986296945107]
本稿では,大規模言語モデル(LLM)の出力を誘導するSafeSteerという手法について検討する。
テキストの品質,トピックの関連性,明示的な拒絶を保ちながら,安全ステアリングを高めるために,簡単な,勾配のない教師なしの手法を用いている。
論文 参考訳(メタデータ) (2025-06-01T01:19:37Z) - Guiding Giants: Lightweight Controllers for Weighted Activation Steering in LLMs [3.2361985831403404]
アクティベーションステアリングは、推論時間制御の代替を提供する。
推論中に軽量でトレーニング可能なコントローラネットワークを組み込んだ新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-22T01:48:38Z) - AdaSteer: Your Aligned LLM is Inherently an Adaptive Jailbreak Defender [73.09848497762667]
本稿では,入力特性に基づいてモデル動作を調整するアダプティブアクティベーションステアリング手法であるAdaSteerを提案する。
AdaSteer は Rejection Direction (RD) と Harmfulness Direction (HD) の両方に沿って入力表現を操る
本研究は,LLMにおけるリアルタイム・フレキシブル安全対策のための解釈可能なモデル内装の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-04-13T07:39:17Z) - SafeSwitch: Steering Unsafe LLM Behavior via Internal Activation Signals [50.463399903987245]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的な能力を示すが、有害なコンテンツを生成することでリスクを引き起こす。
LLMは、内部状態の安全性に関する内部評価を同様に行うことができることを示す。
本稿では,プロバーをベースとした内部状態モニタを用いて,安全でない出力を規制するSafeSwitchを提案する。
論文 参考訳(メタデータ) (2025-02-03T04:23:33Z) - SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Trojan Activation Attack: Red-Teaming Large Language Models using Activation Steering for Safety-Alignment [31.24530091590395]
本研究では,大規模言語モデルの活性化層にトロイの木馬ステアリングベクトルを注入する,Trojan Activation Attack (TA2) と呼ばれる攻撃シナリオについて検討する。
実験の結果,TA2は高効率であり,攻撃効率のオーバーヘッドがほとんどあるいは全くないことがわかった。
論文 参考訳(メタデータ) (2023-11-15T23:07:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。