論文の概要: TrajGuard: Streaming Hidden-state Trajectory Detection for Decoding-time Jailbreak Defense
- arxiv url: http://arxiv.org/abs/2604.07727v1
- Date: Thu, 09 Apr 2026 02:22:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.641173
- Title: TrajGuard: Streaming Hidden-state Trajectory Detection for Decoding-time Jailbreak Defense
- Title(参考訳): TrajGuard: 復号時ジェイルブレイク防御のための隠れ状態軌道検出ストリーミング
- Authors: Cheng Liu, Xiaolei Liu, Xingyu Li, Bangzhou Xin, Kangyi Ding,
- Abstract要約: 既存のジェイルブレイク防御パラダイムは、プロンプト、出力、内部状態の静的検出に依存している。
復号時に重要な層に隠された状態は、入力されたジェイルブレイクのプロンプトよりも強く、より安定したリスク信号を持っていることを示す。
トレーニング不要でデコード可能なディフェンスフレームワークであるTrajGuardを提案する。
- 参考スコア(独自算出の注目度): 22.678364306206493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing jailbreak defense paradigms primarily rely on static detection of prompts, outputs, or internal states, often neglecting the dynamic evolution of risk during decoding. This oversight leaves risk signals embedded in decoding trajectories underutilized, constituting a critical blind spot in current defense systems. In this work, we empirically demonstrate that hidden states in critical layers during the decoding phase carry stronger and more stable risk signals than input jailbreak prompts. Specifically, the hidden representations of tokens generated during jailbreak attempts progressively approach high-risk regions in the latent space. Based on this observation, we propose TrajGuard, a training-free, decoding-time defense framework. TrajGuard aggregates hidden-state trajectories via a sliding window to quantify risk in real time, triggering a lightweight semantic adjudication only when risk within a local window persistently exceeds a threshold. This mechanism enables the immediate interruption or constraint of subsequent decoding. Extensive experiments across 12 jailbreak attacks and various open-source LLMs show that TrajGuard achieves an average defense rate of 95%. Furthermore, it reduces detection latency to 5.2 ms/token while maintaining a false positive rate below 1.5%. These results confirm that hidden-state trajectories during decoding can effectively support real-time jailbreak detection, highlighting a promising direction for defenses without model modification.
- Abstract(参考訳): 既存のジェイルブレイク防御パラダイムは、主にプロンプト、出力、内部状態の静的検出に依存しており、復号時のリスクの動的進化を無視することが多い。
この監視は、現在の防衛システムにおいて重要な盲点を構成する、未使用の復号軌道に埋め込まれた危険信号を残す。
本研究では、デコードフェーズにおける臨界層内の隠れ状態が、入力されたジェイルブレイクプロンプトよりも強く、より安定したリスク信号を持っていることを実証的に示す。
具体的には、ジェイルブレイク時に生成されるトークンの隠された表現が、潜伏空間の高リスク領域に徐々に近づく。
この観測に基づいて、トレーニング不要でデコード時の防御フレームワークであるTrajGuardを提案する。
TrajGuardは、スライディングウィンドウを介して隠れ状態の軌跡を集約し、リアルタイムでリスクを定量化し、ローカルウィンドウ内のリスクがしきい値を超える場合にのみ、軽量なセマンティック適応をトリガーする。
このメカニズムは、後続の復号化の即時中断または制約を可能にする。
12回のジェイルブレイク攻撃と様々なオープンソースのLCMによる大規模な実験は、TrajGuardが95%の防衛率を達成したことを示している。
さらに、検出遅延を5.2ms/tokenに削減し、偽陽性率を1.5%以下に維持する。
これらの結果から,デコード中の隠れ状態軌跡は実時間ジェイルブレイク検出を効果的にサポートし,モデル修正なしに防御に有望な方向を示すことが確認された。
関連論文リスト
- Jailbreaking Leaves a Trace: Understanding and Detecting Jailbreak Attacks from Internal Representations of Large Language Models [2.6140509675507384]
我々はセキュリティと解釈可能性の両方の観点からジェイルブレイクを研究する。
隠れアクティベーションにおける構造をキャプチャするテンソルベース潜在表現フレームワークを提案する。
以上の結果から,脱獄行動が内部構造に根ざしていることが示唆された。
論文 参考訳(メタデータ) (2026-02-12T02:43:17Z) - Defending Large Language Models Against Jailbreak Attacks via In-Decoding Safety-Awareness Probing [27.582748494845706]
大規模言語モデル(LLM)は、自然言語タスク全体で印象的なパフォーマンスを達成し、現実のアプリケーションにますますデプロイされている。
大規模な安全確保努力にもかかわらず、最近の研究では、このようなアライメントはしばしば浅く、ジェイルブレイク攻撃に弱いことが示されている。
ジェイルブレイクに成功したとしても、モデルが内部的に、世代毎に遅延した安全関連信号を表示します。
復号中、安全でないコンテンツを早期に検出するために、これらの潜伏安全信号を明示的にサーフェスし、活用する、単純で効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2026-01-15T16:09:10Z) - ALERT: Zero-shot LLM Jailbreak Detection via Internal Discrepancy Amplification [47.135407245022115]
既存の検出方法は、トレーニングデータに存在するジェイルブレイクテンプレートに依存するジェイルブレイクステータスを主に検出する。
本稿では,階層的に,モジュール単位で,トークン単位での増幅フレームワークを提案する。
これらの知見に基づいて、効率的なゼロショットジェイルブレイク検出器であるALERTを導入する。
論文 参考訳(メタデータ) (2026-01-07T05:30:53Z) - Rethinking Jailbreak Detection of Large Vision Language Models with Representational Contrastive Scoring [13.497048408038935]
LVLM(Large Vision-Language Models)は、増え続けるマルチモーダル・ジェイルブレイク攻撃に対して脆弱である。
現在の異常検出法は、新しい良性入力を悪意のある入力と混同する傾向があり、信頼性の低いオーバーリジェクションにつながる。
我々は,LVLMの内部表現に最も強力な安全信号が存在するという,重要な洞察に基づくフレームワークであるRepresentational Contrastive Scoring (RCS)を提案する。
論文 参考訳(メタデータ) (2025-12-12T22:31:38Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - Test-Time Immunization: A Universal Defense Framework Against Jailbreaks for (Multimodal) Large Language Models [80.66766532477973]
テストタイム免疫(TIM)は、自己進化的な方法で様々なジェイルブレイク攻撃に対して適応的に防御することができる。
テストタイム免疫(TIM)は、自己進化的な方法で様々なジェイルブレイク攻撃に対して適応的に防御することができる。
論文 参考訳(メタデータ) (2025-05-28T11:57:46Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - MoJE: Mixture of Jailbreak Experts, Naive Tabular Classifiers as Guard for Prompt Attacks [2.873719680183099]
本稿では,大規模言語モデル(LLM)における脱獄予防の重要性を論じる。
我々は,既存の最先端ガードレールの限界を超えるよう設計された,新しいガードレールアーキテクチャであるMoJEを紹介する。
MoJEは、モデル推論中に最小限の計算オーバーヘッドを維持しながら、ジェイルブレイク攻撃の検出に優れる。
論文 参考訳(メタデータ) (2024-09-26T10:12:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。