論文の概要: Jailbreaking the Matrix: Nullspace Steering for Controlled Model Subversion
- arxiv url: http://arxiv.org/abs/2604.10326v1
- Date: Sat, 11 Apr 2026 19:19:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.956154
- Title: Jailbreaking the Matrix: Nullspace Steering for Controlled Model Subversion
- Title(参考訳): 行列のジェイルブレーク:制御モデル変換のためのNullspace Steering
- Authors: Vishal Pramanik, Maisha Maliha, Susmit Jha, Sumit Kumar Jha,
- Abstract要約: Head-Masked Nullspace Steering (HMNS) は、モデルのデフォルト動作に最も注意を払っているヘッドを特定する。
これは、幾何学的、解釈可能性的インフォームド介入を利用する最初のジェイルブレイク手法である。
- 参考スコア(独自算出の注目度): 12.201783188544093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models remain vulnerable to jailbreak attacks -- inputs designed to bypass safety mechanisms and elicit harmful responses -- despite advances in alignment and instruction tuning. We propose Head-Masked Nullspace Steering (HMNS), a circuit-level intervention that (i) identifies attention heads most causally responsible for a model's default behavior, (ii) suppresses their write paths via targeted column masking, and (iii) injects a perturbation constrained to the orthogonal complement of the muted subspace. HMNS operates in a closed-loop detection-intervention cycle, re-identifying causal heads and reapplying interventions across multiple decoding attempts. Across multiple jailbreak benchmarks, strong safety defenses, and widely used language models, HMNS attains state-of-the-art attack success rates with fewer queries than prior methods. Ablations confirm that nullspace-constrained injection, residual norm scaling, and iterative re-identification are key to its effectiveness. To our knowledge, this is the first jailbreak method to leverage geometry-aware, interpretability-informed interventions, highlighting a new paradigm for controlled model steering and adversarial safety circumvention.
- Abstract(参考訳): 大規模な言語モデルは、アライメントとインストラクションチューニングの進歩にもかかわらず、ジェイルブレイク攻撃(安全メカニズムを回避し、有害な応答を誘発する)に対して脆弱なままである。
回路レベルの介入であるHMNS(Head-Masked Nullspace Steering)を提案する。
(i)モデルのデフォルト動作に最も慎重に責任を負う注意頭を特定する。
(ii)ターゲットカラムマスキングによる書き込みパスの抑制、および
(iii)ミュート部分空間の直交補空間に制約された摂動を注入する。
HMNSはクローズドループ検出・干渉サイクルで動作し、因果頭部を再同定し、複数の復号の試みにまたがって介入する。
複数のジェイルブレイクベンチマーク、強力な安全防御、そして広く使われている言語モデルを通じて、HMNSは、以前の方法よりも少ないクエリで最先端の攻撃成功率を達成する。
アブレーションは、ヌルスペース制約注入、残留ノルムスケーリング、反復的再同定がその効果の鍵であることを確認した。
我々の知る限り、これは幾何学的、解釈可能性に富んだ介入を活用する最初のジェイルブレイク手法であり、制御されたモデルステアリングと敵の安全回避のための新しいパラダイムを強調している。
関連論文リスト
- Toward Safer Diffusion Language Models: Discovery and Mitigation of Priming Vulnerability [5.650647159993238]
拡散言語モデル (DLMs) は反復的 denoising を通じてトークンを並列に生成する。
本稿では, DLM が反復的 denoising プロセスから生じる致命的な脆弱性を明らかにする。
汚染された中間状態から安全な応答を生成するためにモデルを訓練するDLMに適した新しい安全アライメント手法を提案する。
論文 参考訳(メタデータ) (2025-10-01T06:35:23Z) - ASGuard: Activation-Scaling Guard to Mitigate Targeted Jailbreaking Attack [22.48980625853356]
大規模言語モデル(LLM)は、単純な言語的変化によって回避できる脆い拒絶行動を示す。
本研究では、この特定の脆弱性を外科的に軽減する、洞察に富んだ機械的インフォームドフレームワークであるアクティベーション・スケーリングガード(ASGuard)を紹介する。
論文 参考訳(メタデータ) (2025-09-30T06:33:52Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - Learning to Detect Unknown Jailbreak Attacks in Large Vision-Language Models [22.796169894587475]
攻撃特化学習からタスク特化学習へ焦点を移すことにより、未知のジェイルブレイク攻撃を正確に検出する一般的なフレームワークを提案する。
実験の結果,AUROCの未知攻撃に対する検出精度は向上し,効率は向上した。
論文 参考訳(メタデータ) (2025-08-08T16:13:28Z) - The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs [39.85609149662187]
DLLMのユニークな安全性の弱点を生かした、最初の系統的な研究および脱獄攻撃フレームワークであるDIJAを提案する。
提案するDIJAは,dLLMのテキスト生成機構を利用した対向的インターリーブ・マスクテキストプロンプトを構築する。
本研究は, 新たな言語モデルにおいて, 安全アライメントの再考の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-07-15T08:44:46Z) - AdaSteer: Your Aligned LLM is Inherently an Adaptive Jailbreak Defender [99.3105257001476]
本稿では,入力特性に基づいてモデル動作を調整するアダプティブアクティベーションステアリング手法であるAdaSteerを提案する。
AdaSteer は Rejection Direction (RD) と Harmfulness Direction (HD) の両方に沿って入力表現を操る
本研究は,LLMにおけるリアルタイム・フレキシブル安全対策のための解釈可能なモデル内装の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-04-13T07:39:17Z) - DELMAN: Dynamic Defense Against Large Language Model Jailbreaking with Model Editing [62.43110639295449]
大きな言語モデル(LLM)は意思決定に広く適用されているが、そのデプロイはJailbreak攻撃によって脅かされている。
Delmanは、jailbreak攻撃に対する厳密でダイナミックな保護のために、直接モデル編集を活用する新しいアプローチである。
Delman氏は、モデルの有用性を維持しながら有害な振る舞いを中和するために、関連するパラメータの最小セットを直接更新する。
論文 参考訳(メタデータ) (2025-02-17T10:39:21Z) - Latent-space adversarial training with post-aware calibration for defending large language models against jailbreak attacks [23.793583584784685]
大規模言語モデル(LLM)は、システム脆弱性を利用して安全対策を回避し、有害または不適切な出力を誘発するジェイルブレイク攻撃の影響を受ける。
LATPC(Latent-space Adrial Training with Post-aware framework)を紹介する。
LATPCは有害な入力と良性入力を対比することにより安全性に重要な潜伏次元を同定し、ターゲットの拒絶特徴除去攻撃を適応的に構築する。
論文 参考訳(メタデータ) (2025-01-18T02:57:12Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。