論文の概要: Sparse Autoencoders are Capable LLM Jailbreak Mitigators
- arxiv url: http://arxiv.org/abs/2602.12418v1
- Date: Thu, 12 Feb 2026 21:17:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.758876
- Title: Sparse Autoencoders are Capable LLM Jailbreak Mitigators
- Title(参考訳): スパースオートエンコーダはLLMジェイルブレイクミグレータである
- Authors: Yannick Assogba, Jacopo Cortellazzi, Javier Abad, Pau Rodriguez, Xavier Suau, Arno Blaas,
- Abstract要約: 我々は,ジェイルブレイク攻撃に対するコンテキスト定義型デルタステアリング(CC-Delta)防衛を提案する。
CC-Deltaは統計テストを通じて特徴を選定し、SAE潜時空間における推論時平均シフトステアリングを適用している。
以上の結果から,解釈性に配慮した既製のSAEを,タスク固有の訓練を使わずに,実践的なジェイルブレイク防御として再利用できることが示唆された。
- 参考スコア(独自算出の注目度): 7.495479551261425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Jailbreak attacks remain a persistent threat to large language model safety. We propose Context-Conditioned Delta Steering (CC-Delta), an SAE-based defense that identifies jailbreak-relevant sparse features by comparing token-level representations of the same harmful request with and without jailbreak context. Using paired harmful/jailbreak prompts, CC-Delta selects features via statistical testing and applies inference-time mean-shift steering in SAE latent space. Across four aligned instruction-tuned models and twelve jailbreak attacks, CC-Delta achieves comparable or better safety-utility tradeoffs than baseline defenses operating in dense latent space. In particular, our method clearly outperforms dense mean-shift steering on all four models, and particularly against out-of-distribution attacks, showing that steering in sparse SAE feature space offers advantages over steering in dense activation space for jailbreak mitigation. Our results suggest off-the-shelf SAEs trained for interpretability can be repurposed as practical jailbreak defenses without task-specific training.
- Abstract(参考訳): 脱獄攻撃は、大きな言語モデルの安全性に対する永続的な脅威である。
我々は、同じ有害な要求のトークンレベル表現と、ジェイルブレイクのコンテキストなしで比較することにより、ジェイルブレイクに関連するスパース特徴を識別するSAEベースの防御であるコンテキストコンディションデルタステアリング(CC-Delta)を提案する。
CC-Deltaは、ペア化された有害/ジェイルブレイクプロンプトを使用して、統計的テストを通じて特徴を選択し、SAE潜伏空間に推論時平均シフトステアリングを適用している。
CC-Deltaは、4つのアライメントされた命令調整モデルと12のジェイルブレイク攻撃で、高密度の潜伏空間で運用されるベースラインディフェンスよりも同等または優れた安全ユーティリティトレードオフを実現している。
特に, 本手法は, 4つのモデルにおいて, 集中的な平均シフトステアリング, 特に分布外攻撃に対して明らかに優れており, スパースSAE特徴空間でのステアリングは, ジェイルブレイク軽減のための高密度アクティベーション空間でのステアリングよりも有利であることを示す。
以上の結果から,解釈性に配慮した既製のSAEを,タスク固有の訓練を使わずに,実践的なジェイルブレイク防御として再利用できることが示唆された。
関連論文リスト
- SafeInt: Shielding Large Language Models from Jailbreak Attacks via Safety-Aware Representation Intervention [14.509085965856643]
我々は,大規模言語モデルをジェイルブレイク攻撃から保護する新しい防御手法であるSafeIntervention(SafeInt)を提案する。
SafeIntのコアアイデアは、Jailbreakに関連する表現を拒絶領域に移動させることです。
6件のJailbreak攻撃、2件のJailbreakデータセット、2件のユーティリティベンチマークに関する包括的な実験を行います。
論文 参考訳(メタデータ) (2025-02-21T17:12:35Z) - Adversarial Prompt Evaluation: Systematic Benchmarking of Guardrails Against Prompt Input Attacks on LLMs [44.023741610675266]
大規模言語モデル(LLM)は、ジェイルブレイクと呼ばれるプロンプトによって、安全でない振る舞いに操作できる。
すべての守備隊が、それらを整列するために使われる小さなジェイルブレイクのために、新たなアウト・オブ・ディストリビューション攻撃を処理できるわけではない。
評価のために利用可能な現在のデータセットに基づいて、単純なベースラインは、競争力のあるアウト・オブ・ディストリビューション性能を示すことができることを示す。
論文 参考訳(メタデータ) (2025-02-21T12:54:25Z) - Latent-space adversarial training with post-aware calibration for defending large language models against jailbreak attacks [23.793583584784685]
大規模言語モデル(LLM)は、システム脆弱性を利用して安全対策を回避し、有害または不適切な出力を誘発するジェイルブレイク攻撃の影響を受ける。
LATPC(Latent-space Adrial Training with Post-aware framework)を紹介する。
LATPCは有害な入力と良性入力を対比することにより安全性に重要な潜伏次元を同定し、ターゲットの拒絶特徴除去攻撃を適応的に構築する。
論文 参考訳(メタデータ) (2025-01-18T02:57:12Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment [97.38766396447369]
訓練時安全アライメントにもかかわらず、Multimodal Large Language Models (MLLM) はジェイルブレイク攻撃に対して脆弱である。
我々は,ジェイルブレイク攻撃に対する防御のために,制御復号化による安全な報酬モデルを活用する推論時防御フレームワークImmuneを提案する。
論文 参考訳(メタデータ) (2024-11-27T19:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。