論文の概要: Jailbreaking Leaves a Trace: Understanding and Detecting Jailbreak Attacks from Internal Representations of Large Language Models
- arxiv url: http://arxiv.org/abs/2602.11495v1
- Date: Thu, 12 Feb 2026 02:43:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.604932
- Title: Jailbreaking Leaves a Trace: Understanding and Detecting Jailbreak Attacks from Internal Representations of Large Language Models
- Title(参考訳): ジェイルブレイクの痕跡:大規模言語モデルの内部表現からのジェイルブレイク攻撃の理解と検出
- Authors: Sri Durga Sai Sowmya Kadali, Evangelos E. Papalexakis,
- Abstract要約: 我々はセキュリティと解釈可能性の両方の観点からジェイルブレイクを研究する。
隠れアクティベーションにおける構造をキャプチャするテンソルベース潜在表現フレームワークを提案する。
以上の結果から,脱獄行動が内部構造に根ざしていることが示唆された。
- 参考スコア(独自算出の注目度): 2.6140509675507384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Jailbreaking large language models (LLMs) has emerged as a critical security challenge with the widespread deployment of conversational AI systems. Adversarial users exploit these models through carefully crafted prompts to elicit restricted or unsafe outputs, a phenomenon commonly referred to as Jailbreaking. Despite numerous proposed defense mechanisms, attackers continue to develop adaptive prompting strategies, and existing models remain vulnerable. This motivates approaches that examine the internal behavior of LLMs rather than relying solely on prompt-level defenses. In this work, we study jailbreaking from both security and interpretability perspectives by analyzing how internal representations differ between jailbreak and benign prompts. We conduct a systematic layer-wise analysis across multiple open-source models, including GPT-J, LLaMA, Mistral, and the state-space model Mamba, and identify consistent latent-space patterns associated with harmful inputs. We then propose a tensor-based latent representation framework that captures structure in hidden activations and enables lightweight jailbreak detection without model fine-tuning or auxiliary LLM-based detectors. We further demonstrate that the latent signals can be used to actively disrupt jailbreak execution at inference time. On an abliterated LLaMA-3.1-8B model, selectively bypassing high-susceptibility layers blocks 78% of jailbreak attempts while preserving benign behavior on 94% of benign prompts. This intervention operates entirely at inference time and introduces minimal overhead, providing a scalable foundation for achieving stronger coverage by incorporating additional attack distributions or more refined susceptibility thresholds. Our results provide evidence that jailbreak behavior is rooted in identifiable internal structures and suggest a complementary, architecture-agnostic direction for improving LLM security.
- Abstract(参考訳): 大規模言語モデル(LLM)の脱獄は、会話型AIシステムの広範な展開において、重要なセキュリティ課題として浮上している。
敵対的なユーザーは、ジャイユブレーキング(Jailbreaking)と呼ばれる、制限されたまたは安全でない出力を引き出すために、慎重に作り上げたプロンプトを通じてこれらのモデルを利用する。
多くの防衛機構が提案されているにもかかわらず、攻撃者は適応的なプロンプト戦略を開発し続け、既存のモデルは脆弱のままである。
このことは、即時防御にのみ依存するのではなく、LCMの内部行動を調べるアプローチを動機付けている。
本研究では,ジェイルブレイクと良性プロンプトの内的表現の違いを分析することによって,セキュリティと解釈可能性の両方の観点からジェイルブレイクについて検討する。
我々は、GPT-J、LLaMA、Mistral、および状態空間モデルMambaを含む複数のオープンソースモデルにまたがる階層的解析を行い、有害な入力に関連する一貫した潜在空間パターンを同定する。
次に,隠れアクティベーションにおける構造を捉えるテンソルベース潜在表現フレームワークを提案し,モデル微調整や補助LDMベースの検出器を使わずに,軽量なジェイルブレイク検出を可能にする。
さらに、潜伏信号は、推論時にジェイルブレイクの実行を積極的に妨害するのに有効であることを示す。
LLaMA-3.1-8Bモデルでは、高感受性層を選択的にバイパスし、ジェイルブレイクの試みの78%をブロックし、良性プロンプトの94%で良性行動を保存する。
この介入は推論時に完全に動作し、最小限のオーバーヘッドを導入し、追加の攻撃分布やより洗練された感受性閾値を組み込むことで、より強力なカバレッジを達成するためのスケーラブルな基盤を提供する。
以上の結果から, 脱獄行動が内部構造に根ざしていることを示すとともに, LLMの安全性向上のための補完的, アーキテクチャに依存しない方向性を示唆している。
関連論文リスト
- The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - Do Internal Layers of LLMs Reveal Patterns for Jailbreak Detection? [2.6140509675507384]
大規模言語モデル(LLM)の内部表現を調べることでジェイルブレイク現象を研究する。
具体的には、オープンソースのLCM GPT-Jと状態空間モデルMamba2を分析する。
本研究は,ロバストなジェイルブレイク検出・防御のための内部モデル力学の活用に向けた今後の研究の方向性を示唆するものである。
論文 参考訳(メタデータ) (2025-10-08T02:55:31Z) - Why Not Act on What You Know? Unleashing Safety Potential of LLMs via Self-Aware Guard Enhancement [48.50995874445193]
大規模言語モデル(LLM)は、様々なタスクにわたって印象的な機能を示しているが、細心の注意を払って構築されたジェイルブレイク攻撃には弱いままである。
SAGE(Self-Aware Guard Enhancement)は,LSMの強い安全識別性能と比較的弱い安全生成能力とを整合させる訓練不要防衛戦略である。
論文 参考訳(メタデータ) (2025-05-17T15:54:52Z) - xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [55.253208152184065]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。
我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。
安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文 参考訳(メタデータ) (2024-12-22T14:18:39Z) - MoJE: Mixture of Jailbreak Experts, Naive Tabular Classifiers as Guard for Prompt Attacks [2.873719680183099]
本稿では,大規模言語モデル(LLM)における脱獄予防の重要性を論じる。
我々は,既存の最先端ガードレールの限界を超えるよう設計された,新しいガードレールアーキテクチャであるMoJEを紹介する。
MoJEは、モデル推論中に最小限の計算オーバーヘッドを維持しながら、ジェイルブレイク攻撃の検出に優れる。
論文 参考訳(メタデータ) (2024-09-26T10:12:19Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。