論文の概要: Towards Understanding the Robustness of Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2604.18756v1
- Date: Mon, 20 Apr 2026 19:00:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.441079
- Title: Towards Understanding the Robustness of Sparse Autoencoders
- Title(参考訳): スパースオートエンコーダのロバスト性理解に向けて
- Authors: Ahson Saiyed, Sabrina Sadiekh, Chirag Agarwal,
- Abstract要約: 本稿では,事前学習したSAEを推論時に変圧器残流に組み込むことについて検討する。
SAE強化モデルは、未定義のベースラインに対するジェイルブレイク成功率を最大5倍に向上させる。
- 参考スコア(独自算出の注目度): 13.16745936025085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) remain vulnerable to optimization-based jailbreak attacks that exploit internal gradient structure. While Sparse Autoencoders (SAEs) are widely used for interpretability, their robustness implications remain underexplored. We present a study of integrating pretrained SAEs into transformer residual streams at inference time, without modifying model weights or blocking gradients. Across four model families (Gemma, LLaMA, Mistral, Qwen) and two strong white-box attacks (GCG, BEAST) plus three black-box benchmarks, SAE-augmented models achieve up to a 5x reduction in jailbreak success rate relative to the undefended baseline and reduce cross-model attack transferability. Parametric ablations reveal (i) a monotonic dose-response relationship between L0 sparsity and attack success rate, and (ii) a layer-dependent defense-utility tradeoff, where intermediate layers balance robustness and clean performance. These findings are consistent with a representational bottleneck hypothesis: sparse projection reshapes the optimization geometry exploited by jailbreak attacks.
- Abstract(参考訳): 大きな言語モデル(LLM)は、内部勾配構造を利用する最適化ベースのジェイルブレイク攻撃に対して脆弱なままである。
Sparse Autoencoders (SAEs) は解釈可能性に広く利用されているが、その堅牢性はいまだ探索されていない。
本研究では,モデル重みの変更やブロック勾配を伴わずに,事前学習したSAEを変圧器残差ストリームに統合する手法を提案する。
4つのモデルファミリー(Gemma, LLaMA, Mistral, Qwen)と2つの強力なホワイトボックスアタック(GCG, BEAST)と3つのブラックボックスベンチマーク、SAE強化モデルは、修正されていないベースラインに対するジェイルブレイク成功率を最大5倍に削減し、クロスモデルアタックトランスファビリティを低下させる。
パラメトリックなアブレーションが明らかに
(i)L0間隔と攻撃成功率との単調線量応答関係、及び
2) 中間層が堅牢性とクリーンなパフォーマンスのバランスをとる、層依存の防衛ユーティリティトレードオフ。
スパースプロジェクションは、ジェイルブレイク攻撃によって利用される最適化の幾何を再認識する。
関連論文リスト
- Structured Semantic Cloaking for Jailbreak Attacks on Large Language Models [28.741175254258422]
本研究では,新しい多次元ジェイルブレイク攻撃フレームワークであるStructured Semantic Cloaking (S2C)を提案する。
S2Cはマルチステップ推論を必要とするようなセマンティックキューを戦略的に分散し、再結合する。
我々は、HarmBench と JBB-Behaviors を用いて、複数のオープンソースおよびプロプライエタリ LLM 上でS2Cを評価した。
論文 参考訳(メタデータ) (2026-03-17T07:20:48Z) - Jailbreaking LLMs Without Gradients or Priors: Effective and Transferable Attacks [22.52730333160258]
RAILSは,モデルロジットのみで動作するフレームワークである。
RAILSは勾配依存を排除し、クロストケナイザーアンサンブル攻撃を可能にする。
RAILSは、複数のオープンソースモデルで100%近い成功率と、GPTやGeminiのようなクローズドソースシステムへの高いブラックボックス攻撃転送性を実現している。
論文 参考訳(メタデータ) (2026-01-06T21:14:13Z) - Crafting Adversarial Inputs for Large Vision-Language Models Using Black-Box Optimization [27.346913473981193]
同時摂動近似(ZO-SPSA)を用いたゼロ階最適化によるLVLM(Large Vision-Language Models)に対するブラックボックスジェイルブレイク攻撃を提案する。
InstructBLIP, LLaVA, MiniGPT-4の3つのLVLM上でZO-SPSAを評価し, InstructBLIPのジェイルブレイク成功率は83.0%であった。
これらの知見は、ブラックボックスジェイルブレイクの現実的な実現可能性を強調し、現在のLVLMの安全性メカニズムにおける重大な弱点を明らかにしている。
論文 参考訳(メタデータ) (2026-01-05T02:49:33Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - bi-GRPO: Bidirectional Optimization for Jailbreak Backdoor Injection on LLMs [33.470999703070866]
既存のジェイルブレイクのトリガーを埋め込むアプローチは、一般化の貧弱さ、ステルスネスの妥協、文脈的ユーザビリティの低下といった制限に悩まされている。
ジェイルブレイクバックドア注入に適した新しいRLベースのフレームワークであるbi-GRPOを提案する。
論文 参考訳(メタデータ) (2025-09-24T05:56:41Z) - An Interpretable N-gram Perplexity Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、あるジェイルブレイクがテキストの配布で起こりそうなかどうかをチェックします。
私たちはこの脅威モデルに人気のある攻撃を適応させ、これらの攻撃を同等の足場でベンチマークしました。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - h4rm3l: A language for Composable Jailbreak Attack Synthesis [48.5611060845958]
h4rm3lは、人間が読めるドメイン固有言語とのギャップに対処する新しいアプローチである。
我々は、h4rm3lの合成攻撃は、文献における既存のジェイルブレイク攻撃よりも多様で、より成功していることを示す。
論文 参考訳(メタデータ) (2024-08-09T01:45:39Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。