論文の概要: ALERT: Zero-shot LLM Jailbreak Detection via Internal Discrepancy Amplification
- arxiv url: http://arxiv.org/abs/2601.03600v1
- Date: Wed, 07 Jan 2026 05:30:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.134526
- Title: ALERT: Zero-shot LLM Jailbreak Detection via Internal Discrepancy Amplification
- Title(参考訳): ALERT: 内部離散増幅によるゼロショットLDMジェイルブレイク検出
- Authors: Xiao Lin, Philip Li, Zhichen Zeng, Tingwei Li, Tianxin Wei, Xuying Ning, Gaotang Li, Yuzhong Chen, Hanghang Tong,
- Abstract要約: 既存の検出方法は、トレーニングデータに存在するジェイルブレイクテンプレートに依存するジェイルブレイクステータスを主に検出する。
本稿では,階層的に,モジュール単位で,トークン単位での増幅フレームワークを提案する。
これらの知見に基づいて、効率的なゼロショットジェイルブレイク検出器であるALERTを導入する。
- 参考スコア(独自算出の注目度): 47.135407245022115
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite rich safety alignment strategies, large language models (LLMs) remain highly susceptible to jailbreak attacks, which compromise safety guardrails and pose serious security risks. Existing detection methods mainly detect jailbreak status relying on jailbreak templates present in the training data. However, few studies address the more realistic and challenging zero-shot jailbreak detection setting, where no jailbreak templates are available during training. This setting better reflects real-world scenarios where new attacks continually emerge and evolve. To address this challenge, we propose a layer-wise, module-wise, and token-wise amplification framework that progressively magnifies internal feature discrepancies between benign and jailbreak prompts. We uncover safety-relevant layers, identify specific modules that inherently encode zero-shot discriminative signals, and localize informative safety tokens. Building upon these insights, we introduce ALERT (Amplification-based Jailbreak Detector), an efficient and effective zero-shot jailbreak detector that introduces two independent yet complementary classifiers on amplified representations. Extensive experiments on three safety benchmarks demonstrate that ALERT achieves consistently strong zero-shot detection performance. Specifically, (i) across all datasets and attack strategies, ALERT reliably ranks among the top two methods, and (ii) it outperforms the second-best baseline by at least 10% in average Accuracy and F1-score, and sometimes by up to 40%.
- Abstract(参考訳): 豊富な安全アライメント戦略にもかかわらず、大きな言語モデル(LLM)は、安全ガードレールを侵害し、重大なセキュリティリスクを生じさせるジェイルブレイク攻撃の影響を受けやすいままである。
既存の検出方法は、トレーニングデータに存在するジェイルブレイクテンプレートに依存するジェイルブレイクステータスを主に検出する。
しかし、より現実的で挑戦的なジェイルブレイク検出設定に対処する研究はほとんどなく、トレーニング中にジェイルブレイクテンプレートが利用できない。
この設定は、新たな攻撃が継続的に発生し進化する現実世界のシナリオを反映している。
この課題に対処するため、我々は、階層的、モジュール的に、トークン的に増幅するフレームワークを提案し、ベニグンプロンプトとジェイルブレイクプロンプトの内的特徴の相違を徐々に拡大する。
我々は、安全関連層を発見し、ゼロショット識別信号を本質的にエンコードする特定のモジュールを特定し、情報安全トークンをローカライズする。
これらの知見に基づいて、ALERT (Amplification-based Jailbreak Detector) を導入し、効率よく効果的なゼロショットジェイルブレイク検出装置を導入し、増幅表現に2つの独立した補完的分類器を導入する。
3つの安全性ベンチマークの大規模な実験は、ALRTが一貫して強力なゼロショット検出性能を達成していることを示している。
具体的には
(i)すべてのデータセットと攻撃戦略において、ALERTは確実に上位2つのメソッドにランク付けし、
(ii)平均精度とF1スコアで2番目に高いベースラインを10%以上上回り、時には40%も上回ります。
関連論文リスト
- DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - Learning to Detect Unknown Jailbreak Attacks in Large Vision-Language Models [22.796169894587475]
攻撃特化学習からタスク特化学習へ焦点を移すことにより、未知のジェイルブレイク攻撃を正確に検出する一般的なフレームワークを提案する。
実験の結果,AUROCの未知攻撃に対する検出精度は向上し,効率は向上した。
論文 参考訳(メタデータ) (2025-08-08T16:13:28Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [64.32925552574115]
ARMORは、jailbreak戦略を分析し、コアインテントを抽出する、大規模な言語モデルである。
ARMORは最先端の安全性能を達成し、平均有害率は0.002であり、高度な最適化ベースのジェイルブレイクに対する攻撃成功率は0.06である。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - Attention Slipping: A Mechanistic Understanding of Jailbreak Attacks and Defenses in LLMs [61.916827858666906]
私たちは、脱獄攻撃中に起こる普遍的な現象を明らかにします。
Attention Slippingは、勾配ベースのトークン置換、プロンプトレベルのテンプレートリファインメント、コンテキスト内学習など、さまざまなジェイルブレイクメソッドに一貫性があることを示します。
本研究では,温度スケーリングによる注意スコア分布の鮮明化により,注意スライッピングと直接対向する新たな防御法である注意シャープニングを提案する。
論文 参考訳(メタデータ) (2025-07-06T12:19:04Z) - JailDAM: Jailbreak Detection with Adaptive Memory for Vision-Language Model [25.204224437843365]
マルチモーダル大規模言語モデル (MLLM) は視覚言語タスクに優れるが、有害なコンテンツを生成する大きなリスクを生じさせる。
ジェイルブレイク攻撃は、モデル内の安全メカニズムを回避し、不適切なコンテンツや安全でないコンテンツを生成する意図的な操作を指す。
JAILDAMと呼ばれるテスト時間適応フレームワークを導入し、これらの問題に対処する。
論文 参考訳(メタデータ) (2025-04-03T05:00:28Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - What Features in Prompts Jailbreak LLMs? Investigating the Mechanisms Behind Attacks [6.392966062933521]
本研究では,35種類の攻撃方法にまたがる10,800件のジェイルブレイク試行からなる新しいデータセットを提案する。
我々は、脱獄の成功を予測するために、オープンウェイトLLMの隠れ状態に関する線形および非線形プローブを訓練する。
因果関係を確立するために、予測方向のコンプライアンスを体系的にシフトするプローブ誘導潜時介入を構築した。
論文 参考訳(メタデータ) (2024-11-02T17:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。