論文の概要: Mechanistic Steering of LLMs Reveals Layer-wise Feature Vulnerabilities in Adversarial Settings
- arxiv url: http://arxiv.org/abs/2604.23130v1
- Date: Sat, 25 Apr 2026 03:54:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.171983
- Title: Mechanistic Steering of LLMs Reveals Layer-wise Feature Vulnerabilities in Adversarial Settings
- Title(参考訳): LLMのメカニカルステアリングによる対向的設定における階層的特徴脆弱性の解明
- Authors: Nilanjana Das, Manas Gaur,
- Abstract要約: 大規模言語モデル(LLM)は、安全アライメントにもかかわらず、有害なアウトプットを生成するためにジェイルブレイクされることがある。
この研究は、ジェイルブレイクの成功は、単独のプロンプトではなく、識別可能な内部特徴によって引き起こされるかどうかを問うものである。
- 参考スコア(独自算出の注目度): 10.295063742066263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) can still be jailbroken into producing harmful outputs despite safety alignment. Existing attacks show this vulnerability, but not the internal mechanisms that cause it. This study asks whether jailbreak success is driven by identifiable internal features rather than prompts alone. We propose a three-stage pipeline for Gemma-2-2B using the BeaverTails dataset. First, we extract concept-aligned tokens from adversarial responses via subspace similarity. Second, we apply three feature-grouping strategies (cluster, hierarchical-linkage, and single-token-driven) to identify SAE feature subgroups for the aligned tokens across all 26 model layers. Third, we steer the model by amplifying the top features from each identified subgroup and measure the change in harmfulness score using a standardized LLM-judge scoring protocol. In all three approaches, the features in the layers [16-25] were relatively more vulnerable to steering. All three methods confirmed that mid to later layer feature subgroups are more responsible for unsafe outputs. These results provide evidence that the jailbreak vulnerability in Gemma-2-2B is localized to feature subgroups of mid to later layers, suggesting that targeted feature-level interventions may offer a more principled path to adversarial robustness than current prompt-level defenses.
- Abstract(参考訳): 大規模言語モデル(LLM)は、安全アライメントにもかかわらず、有害なアウトプットを生成するためにジェイルブレイクされることがある。
既存の攻撃は、この脆弱性を示すが、それを引き起こす内部メカニズムではない。
この研究は、ジェイルブレイクの成功は、単独のプロンプトではなく、識別可能な内部特徴によって引き起こされるかどうかを問うものである。
本研究では,BeaverTailsデータセットを用いたGemma-2-2Bの3段階パイプラインを提案する。
まず、サブスペース類似性を用いて、逆応答から概念整列トークンを抽出する。
次に、クラスタ、階層型リンク、シングルトークン駆動の3つの機能グループ戦略を適用し、26のモデル層すべてにまたがる整列トークンのSAE機能サブグループを特定します。
第3に、特定サブグループごとの上位特徴を増幅し、標準化されたLCM-judgeスコアプロトコルを用いて有害度スコアの変化を測定することにより、モデルをステアリングする。
3つのアプローチすべてにおいて、[16-25]のレイヤの機能は、ステアリングに対して比較的脆弱でした。
3つの手法はいずれも、中層と後層の特徴部分群が安全でない出力に対してより責任があることを確認した。
これらの結果は、Gemma-2-2Bのジェイルブレイク脆弱性が中層と後層のサブグループに局在していることの証拠となり、標的となる特徴レベルの介入は、現在のプロンプトレベルの防御よりも敵の堅牢性へのより原則的な経路を提供する可能性があることを示唆している。
関連論文リスト
- Activation Steering for Aligned Open-ended Generation without Sacrificing Coherence [16.403654360036498]
ミスアライメントは、敵対的なプロンプト、良心的な微調整、創発的なミスアライメント、目標のミスジェネレーションによって引き起こされる。
最近の証拠は、いくつかの不整合挙動が活性化空間の線形構造としてコード化され、操舵によって牽引可能であることを示唆している。
これらの知見は, 世代ごとのアクティベーションの不一致を継続的に補正する軽量なランタイムディフェンスとして, アクティベーションステアリングを動機付けている。
論文 参考訳(メタデータ) (2026-04-09T12:28:22Z) - ProtoGuard-SL: Prototype Consistency Based Backdoor Defense for Vertical Split Learning [4.085737586606009]
本稿では,組込み空間におけるクラス条件表現の整合性を利用して分割学習の堅牢性を向上させるサーバサイドディフェンスであるProtoGuard-SLを提案する。
筆者らのアプローチは,同じクラス内の良性埋め込みが安定なセマンティックアライメントを示すのに対して,有毒な埋め込みは必然的にこの構造を阻害する,という観察によって動機づけられた。
論文 参考訳(メタデータ) (2026-04-04T05:24:09Z) - The Vulnerability of LLM Rankers to Prompt Injection Attacks [40.03039307576983]
大規模言語モデル(LLM)は強力なリランカとして登場した。
最近の研究では、候補文書に埋め込まれた単純なプロンプトインジェクションは、LCMのランキング決定を著しく変える可能性があることが示されている。
論文 参考訳(メタデータ) (2026-02-18T06:19:08Z) - Attributing and Exploiting Safety Vectors through Global Optimization in Large Language Models [50.91504059485288]
本報告では,全頭部のグローバルな最適化により,安全クリティカルな注意点を同時に識別するフレームワークを提案する。
我々は,アクティベーション・リマッチによって同定された安全ベクトルを利用する,新しい推論時ホワイトボックス・ジェイルブレイク法を開発した。
論文 参考訳(メタデータ) (2026-01-22T09:32:43Z) - Why Does the LLM Stop Computing: An Empirical Study of User-Reported Failures in Open-Source LLMs [50.075587392477935]
オープンソースのDeepSeek、Llama、Qwenのエコシステムから、705の現実世界の失敗に関する大規模な実証的研究を行った。
ホワイトボックスオーケストレーションは、モデルアルゴリズムの欠陥からデプロイメントスタックのシステム的脆弱性へと、信頼性のボトルネックを移動させます。
論文 参考訳(メタデータ) (2026-01-20T06:42:56Z) - ALERT: Zero-shot LLM Jailbreak Detection via Internal Discrepancy Amplification [47.135407245022115]
既存の検出方法は、トレーニングデータに存在するジェイルブレイクテンプレートに依存するジェイルブレイクステータスを主に検出する。
本稿では,階層的に,モジュール単位で,トークン単位での増幅フレームワークを提案する。
これらの知見に基づいて、効率的なゼロショットジェイルブレイク検出器であるALERTを導入する。
論文 参考訳(メタデータ) (2026-01-07T05:30:53Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - LeakSealer: A Semisupervised Defense for LLMs Against Prompt Injection and Leakage Attacks [7.115093658017371]
LeakSealerは、法医学的な洞察のための静的分析とHuman-In-The-Loopパイプラインの動的防御を組み合わせた、モデルに依存しないフレームワークである。
筆者らはLeakSealerを,(1)公開ベンチマークデータセットを用いたジェイルブレイクの試み,(2)ラベル付きLLMインタラクションのキュレートデータセットによってサポートされているPIIリークの2つのシナリオで実証的に評価した。
論文 参考訳(メタデータ) (2025-08-01T13:04:28Z) - Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。