論文の概要: ALERT: Zero-shot LLM Jailbreak Detection via Internal Discrepancy Amplification
- arxiv url: http://arxiv.org/abs/2601.03600v1
- Date: Wed, 07 Jan 2026 05:30:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.134526
- Title: ALERT: Zero-shot LLM Jailbreak Detection via Internal Discrepancy Amplification
- Title(参考訳): ALERT: 内部離散増幅によるゼロショットLDMジェイルブレイク検出
- Authors: Xiao Lin, Philip Li, Zhichen Zeng, Tingwei Li, Tianxin Wei, Xuying Ning, Gaotang Li, Yuzhong Chen, Hanghang Tong,
- Abstract要約: 既存の検出方法は、トレーニングデータに存在するジェイルブレイクテンプレートに依存するジェイルブレイクステータスを主に検出する。
本稿では,階層的に,モジュール単位で,トークン単位での増幅フレームワークを提案する。
これらの知見に基づいて、効率的なゼロショットジェイルブレイク検出器であるALERTを導入する。
- 参考スコア(独自算出の注目度): 47.135407245022115
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite rich safety alignment strategies, large language models (LLMs) remain highly susceptible to jailbreak attacks, which compromise safety guardrails and pose serious security risks. Existing detection methods mainly detect jailbreak status relying on jailbreak templates present in the training data. However, few studies address the more realistic and challenging zero-shot jailbreak detection setting, where no jailbreak templates are available during training. This setting better reflects real-world scenarios where new attacks continually emerge and evolve. To address this challenge, we propose a layer-wise, module-wise, and token-wise amplification framework that progressively magnifies internal feature discrepancies between benign and jailbreak prompts. We uncover safety-relevant layers, identify specific modules that inherently encode zero-shot discriminative signals, and localize informative safety tokens. Building upon these insights, we introduce ALERT (Amplification-based Jailbreak Detector), an efficient and effective zero-shot jailbreak detector that introduces two independent yet complementary classifiers on amplified representations. Extensive experiments on three safety benchmarks demonstrate that ALERT achieves consistently strong zero-shot detection performance. Specifically, (i) across all datasets and attack strategies, ALERT reliably ranks among the top two methods, and (ii) it outperforms the second-best baseline by at least 10% in average Accuracy and F1-score, and sometimes by up to 40%.
- Abstract(参考訳): 豊富な安全アライメント戦略にもかかわらず、大きな言語モデル(LLM)は、安全ガードレールを侵害し、重大なセキュリティリスクを生じさせるジェイルブレイク攻撃の影響を受けやすいままである。
既存の検出方法は、トレーニングデータに存在するジェイルブレイクテンプレートに依存するジェイルブレイクステータスを主に検出する。
しかし、より現実的で挑戦的なジェイルブレイク検出設定に対処する研究はほとんどなく、トレーニング中にジェイルブレイクテンプレートが利用できない。
この設定は、新たな攻撃が継続的に発生し進化する現実世界のシナリオを反映している。
この課題に対処するため、我々は、階層的、モジュール的に、トークン的に増幅するフレームワークを提案し、ベニグンプロンプトとジェイルブレイクプロンプトの内的特徴の相違を徐々に拡大する。
我々は、安全関連層を発見し、ゼロショット識別信号を本質的にエンコードする特定のモジュールを特定し、情報安全トークンをローカライズする。
これらの知見に基づいて、ALERT (Amplification-based Jailbreak Detector) を導入し、効率よく効果的なゼロショットジェイルブレイク検出装置を導入し、増幅表現に2つの独立した補完的分類器を導入する。
3つの安全性ベンチマークの大規模な実験は、ALRTが一貫して強力なゼロショット検出性能を達成していることを示している。
具体的には
(i)すべてのデータセットと攻撃戦略において、ALERTは確実に上位2つのメソッドにランク付けし、
(ii)平均精度とF1スコアで2番目に高いベースラインを10%以上上回り、時には40%も上回ります。
関連論文リスト
- Jailbreaking Leaves a Trace: Understanding and Detecting Jailbreak Attacks from Internal Representations of Large Language Models [2.6140509675507384]
我々はセキュリティと解釈可能性の両方の観点からジェイルブレイクを研究する。
隠れアクティベーションにおける構造をキャプチャするテンソルベース潜在表現フレームワークを提案する。
以上の結果から,脱獄行動が内部構造に根ざしていることが示唆された。
論文 参考訳(メタデータ) (2026-02-12T02:43:17Z) - Defending Large Language Models Against Jailbreak Attacks via In-Decoding Safety-Awareness Probing [27.582748494845706]
大規模言語モデル(LLM)は、自然言語タスク全体で印象的なパフォーマンスを達成し、現実のアプリケーションにますますデプロイされている。
大規模な安全確保努力にもかかわらず、最近の研究では、このようなアライメントはしばしば浅く、ジェイルブレイク攻撃に弱いことが示されている。
ジェイルブレイクに成功したとしても、モデルが内部的に、世代毎に遅延した安全関連信号を表示します。
復号中、安全でないコンテンツを早期に検出するために、これらの潜伏安全信号を明示的にサーフェスし、活用する、単純で効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2026-01-15T16:09:10Z) - Rethinking Jailbreak Detection of Large Vision Language Models with Representational Contrastive Scoring [13.497048408038935]
LVLM(Large Vision-Language Models)は、増え続けるマルチモーダル・ジェイルブレイク攻撃に対して脆弱である。
現在の異常検出法は、新しい良性入力を悪意のある入力と混同する傾向があり、信頼性の低いオーバーリジェクションにつながる。
我々は,LVLMの内部表現に最も強力な安全信号が存在するという,重要な洞察に基づくフレームワークであるRepresentational Contrastive Scoring (RCS)を提案する。
論文 参考訳(メタデータ) (2025-12-12T22:31:38Z) - Immunity memory-based jailbreak detection: multi-agent adaptive guard for large language models [12.772312329709868]
大規模言語モデル(LLM)はAIシステムの基盤となっているが、敵のジェイルブレイク攻撃に弱いままである。
ジェイルブレイク検出のためのマルチエージェント適応ガード(MAAG)フレームワークを提案する。
MAAGはまず、入力プロンプトからアクティベーション値を抽出し、メモリバンクに格納された履歴アクティベーションと比較して、迅速な予備検出を行う。
論文 参考訳(メタデータ) (2025-12-03T01:40:40Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - Learning to Detect Unknown Jailbreak Attacks in Large Vision-Language Models [22.796169894587475]
攻撃特化学習からタスク特化学習へ焦点を移すことにより、未知のジェイルブレイク攻撃を正確に検出する一般的なフレームワークを提案する。
実験の結果,AUROCの未知攻撃に対する検出精度は向上し,効率は向上した。
論文 参考訳(メタデータ) (2025-08-08T16:13:28Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [64.32925552574115]
ARMORは、jailbreak戦略を分析し、コアインテントを抽出する、大規模な言語モデルである。
ARMORは最先端の安全性能を達成し、平均有害率は0.002であり、高度な最適化ベースのジェイルブレイクに対する攻撃成功率は0.06である。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - Attention Slipping: A Mechanistic Understanding of Jailbreak Attacks and Defenses in LLMs [61.916827858666906]
私たちは、脱獄攻撃中に起こる普遍的な現象を明らかにします。
Attention Slippingは、勾配ベースのトークン置換、プロンプトレベルのテンプレートリファインメント、コンテキスト内学習など、さまざまなジェイルブレイクメソッドに一貫性があることを示します。
本研究では,温度スケーリングによる注意スコア分布の鮮明化により,注意スライッピングと直接対向する新たな防御法である注意シャープニングを提案する。
論文 参考訳(メタデータ) (2025-07-06T12:19:04Z) - JailDAM: Jailbreak Detection with Adaptive Memory for Vision-Language Model [25.204224437843365]
マルチモーダル大規模言語モデル (MLLM) は視覚言語タスクに優れるが、有害なコンテンツを生成する大きなリスクを生じさせる。
ジェイルブレイク攻撃は、モデル内の安全メカニズムを回避し、不適切なコンテンツや安全でないコンテンツを生成する意図的な操作を指す。
JAILDAMと呼ばれるテスト時間適応フレームワークを導入し、これらの問題に対処する。
論文 参考訳(メタデータ) (2025-04-03T05:00:28Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [55.253208152184065]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。
我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。
安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文 参考訳(メタデータ) (2024-12-22T14:18:39Z) - What Features in Prompts Jailbreak LLMs? Investigating the Mechanisms Behind Attacks [6.392966062933521]
本研究では,35種類の攻撃方法にまたがる10,800件のジェイルブレイク試行からなる新しいデータセットを提案する。
我々は、脱獄の成功を予測するために、オープンウェイトLLMの隠れ状態に関する線形および非線形プローブを訓練する。
因果関係を確立するために、予測方向のコンプライアンスを体系的にシフトするプローブ誘導潜時介入を構築した。
論文 参考訳(メタデータ) (2024-11-02T17:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。