論文の概要: Principled Steering via Null-space Projection for Jailbreak Defense in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.22094v2
- Date: Wed, 25 Mar 2026 16:02:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 14:25:25.982383
- Title: Principled Steering via Null-space Projection for Jailbreak Defense in Vision-Language Models
- Title(参考訳): 視覚・言語モデルにおける脱獄防御のためのNull空間投影によるステアリングの原理
- Authors: Xingyu Zhu, Beier Zhu, Shuo Wang, Junfeng Fang, Kesen Zhao, Hanwang Zhang, Xiangnan He,
- Abstract要約: 視覚言語モデルは視覚的ジェイルブレイク攻撃によって容易に誘導され、有害なコンテンツを生成する。
本稿では,NullSteerを提案する。
我々はNullSteerが様々なジェイルブレイク攻撃において有害な出力を著しく減少させることを示す。
- 参考スコア(独自算出の注目度): 71.11171576590134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As vision-language models (VLMs) are increasingly deployed in open-world scenarios, they can be easily induced by visual jailbreak attacks to generate harmful content, posing serious risks to model safety and trustworthy usage. Recent activation steering methods inject directional vectors into model activations during inference to induce refusal behaviors and have demonstrated effectiveness. However, a steering vector may both enhance refusal ability and cause over-refusal, thereby degrading model performance on benign inputs. Moreover, due to the lack of theoretical interpretability, these methods still suffer from limited robustness and effectiveness. To better balance safety and utility, we propose NullSteer, a null-space projected activation defense framework. Our method constructs refusal directions within model activations through a linear transformation: it maintains zero perturbation within the benign subspace while dynamically inducing refusal along potentially harmful directions, thereby theoretically achieving safety enhancement without impairing the model's general capabilities. Extensive experiments show that NullSteer significantly reduces harmful outputs under various jailbreak attacks (average ASR reduction over 15 percent on MiniGPT-4) while maintaining comparable performance to the original model on general benchmarks.
- Abstract(参考訳): ヴィジュアル言語モデル(VLM)は、オープンワールドのシナリオにますますデプロイされているため、視覚的ジェイルブレイク攻撃によって有害なコンテンツを生成することができ、安全性と信頼できる使用法をモデル化する重大なリスクを負う。
近年のアクティベーションステアリング法では, モデルアクティベーションに方向ベクトルを注入し, 拒絶動作を誘発し, 有効性を示した。
しかし、ステアリングベクトルは、拒絶能力を高め、過剰な拒絶を引き起こし、良質な入力に対するモデル性能を低下させる可能性がある。
さらに、理論的解釈可能性の欠如により、これらの手法は依然として限られた堅牢性と有効性に悩まされている。
安全性とユーティリティのバランスを改善するために,NullSteerを提案する。
本手法は,線形変換によりモデルアクティベーション内のリファクション方向を構成する。これは,潜在的に有害な方向に沿って動的にリファクションを誘導しながら,良性部分空間内の摂動をゼロに保ちながら,モデルの汎用能力を損なうことなく理論的に安全性向上を実現する。
大規模な実験により、NullSteerは様々なジェイルブレイク攻撃(平均ASRの15%以上をMiniGPT-4で削減)において有害な出力を著しく削減し、一般的なベンチマークでは元のモデルと同等の性能を維持していることがわかった。
関連論文リスト
- Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models [62.16655896700062]
活性化ステアリングは大規模言語モデル(LLM)の有用性を高める技術である
重要かつ過度に調査された安全リスクを無意識に導入することを示します。
実験によると、これらの介入は強制乗算器として機能し、ジェイルブレイクに新たな脆弱性を発生させ、標準ベンチマークで攻撃成功率を80%以上向上させる。
論文 参考訳(メタデータ) (2026-02-03T12:32:35Z) - SafeSteer: Adaptive Subspace Steering for Efficient Jailbreak Defense in Vision-Language Models [25.027627636905475]
軽量な推論時ステアリングフレームワークであるSafeSteerを提案する。
SafeSteerは攻撃成功率を60%以上削減し,通常のタスクの精度を1~2%向上することを示す。
論文 参考訳(メタデータ) (2025-09-24T12:46:41Z) - AlphaSteer: Learning Refusal Steering with Principled Null-Space Constraint [49.641959856967276]
提案手法はAlphaSteerと呼ばれる,理論的に基礎的かつ実験的に有効なアクティベーションステアリング法である。
ユーティリティ保存のために、Null-space制約を使って、良性データのステアリングのためのほぼゼロベクトルを構築することを学ぶ。
複数のjailbreak攻撃とユーティリティベンチマークの実験は、AlphaSteerの有効性を示している。
論文 参考訳(メタデータ) (2025-06-08T07:03:28Z) - AdaSteer: Your Aligned LLM is Inherently an Adaptive Jailbreak Defender [99.3105257001476]
本稿では,入力特性に基づいてモデル動作を調整するアダプティブアクティベーションステアリング手法であるAdaSteerを提案する。
AdaSteer は Rejection Direction (RD) と Harmfulness Direction (HD) の両方に沿って入力表現を操る
本研究は,LLMにおけるリアルタイム・フレキシブル安全対策のための解釈可能なモデル内装の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-04-13T07:39:17Z) - Representation Bending for Large Language Model Safety [27.842146980762934]
大きな言語モデル(LLM)は強力なツールとして登場したが、その固有の安全性のリスクは重大な課題を引き起こしている。
本稿では,LLMにおける有害行動の表現を根本的に破壊する新しい手法であるRepBendを紹介する。
RepBendは最先端のパフォーマンスを達成し、Circuit Breaker、RMU、NPOといった従来の手法よりも優れ、攻撃成功率を最大95%削減する。
論文 参考訳(メタデータ) (2025-04-02T09:47:01Z) - Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities [49.09703018511403]
大規模言語モデル(LLM)のリスクと能力の評価は、AIのリスク管理とガバナンスフレームワークにますます取り入れられている。
現在、ほとんどのリスク評価は、システムから有害な振る舞いを誘発する入力を設計することで実施されている。
本稿では,遅延活性化や重みへの修正が可能なモデル改ざん攻撃を用いたLCMの評価を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。