論文の概要: Hiding in Plain Text: Detecting Concealed Jailbreaks via Activation Disentanglement
- arxiv url: http://arxiv.org/abs/2602.19396v1
- Date: Mon, 23 Feb 2026 00:11:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.623133
- Title: Hiding in Plain Text: Detecting Concealed Jailbreaks via Activation Disentanglement
- Title(参考訳): 平文のハイディング:アクティベーション・ディタングルメントによる汚染された脱獄を検知する
- Authors: Amirhossein Farzam, Majid Behabahani, Mani Malek, Yuriy Nevmyvaka, Guillermo Sapiro,
- Abstract要約: 大規模言語モデル (LLM) は、リーチでセマンティックに一貫性のあるジェイルブレイクプロンプトに対して脆弱なままである。
本稿では,LLMアクティベーションにおけるセマンティックファクタペアを推論時にアンタングリングするための自己教師型フレームワークを提案する。
次に、フレーミング表現で動作する異常検出器であるFrameShieldを提案し、モデルに依存しない検出を改善する。
- 参考スコア(独自算出の注目度): 13.976796671311066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) remain vulnerable to jailbreak prompts that are fluent and semantically coherent, and therefore difficult to detect with standard heuristics. A particularly challenging failure mode occurs when an attacker tries to hide the malicious goal of their request by manipulating its framing to induce compliance. Because these attacks maintain malicious intent through a flexible presentation, defenses that rely on structural artifacts or goal-specific signatures can fail. Motivated by this, we introduce a self-supervised framework for disentangling semantic factor pairs in LLM activations at inference. We instantiate the framework for goal and framing and construct GoalFrameBench, a corpus of prompts with controlled goal and framing variations, which we use to train Representation Disentanglement on Activations (ReDAct) module to extract disentangled representations in a frozen LLM. We then propose FrameShield, an anomaly detector operating on the framing representations, which improves model-agnostic detection across multiple LLM families with minimal computational overhead. Theoretical guarantees for ReDAct and extensive empirical validations show that its disentanglement effectively powers FrameShield. Finally, we use disentanglement as an interpretability probe, revealing distinct profiles for goal and framing signals and positioning semantic disentanglement as a building block for both LLM safety and mechanistic interpretability.
- Abstract(参考訳): 大規模言語モデル (LLM) は、流動的でセマンティックに一貫性があり、したがって標準的なヒューリスティックで検出するのが困難であるジェイルブレイクプロンプトに対して脆弱なままである。
特に困難な障害モードは、アタッカーがそのフレーミングを操作してコンプライアンスを誘導することによって、要求の悪意ある目標を隠そうとするときに発生する。
これらの攻撃はフレキシブルなプレゼンテーションを通じて悪意のある意図を維持しているため、構造的アーティファクトやゴール固有のシグネチャに依存する防御は失敗する可能性がある。
そこで本研究では,LLMアクティベーションにおけるセマンティック・ファクター・ペアを分離する自己教師型フレームワークを提案する。
ゴールとフレーミングのためのフレームワークをインスタンス化し、制御されたゴールとフレーミングのバリエーションを持つプロンプトのコーパスであるGoalFrameBenchを構築します。
次に、フレーミング表現で動作する異常検出器であるFrameShieldを提案し、計算オーバーヘッドを最小限に抑えた複数のLLMファミリーにおけるモデル非依存検出を改善する。
ReDActと広範囲な実証検証に関する理論的保証は、この非絡み合いがFrameShieldに効果的に作用していることを示している。
最後に、解離を解釈可能性プローブとして使用し、ゴールとフレーミング信号の異なるプロファイルを明らかにし、意味的解離をLLMの安全性と機械的解離性の両方のためのビルディングブロックとして位置付ける。
関連論文リスト
- A Fragile Guardrail: Diffusion LLM's Safety Blessing and Its Failure Mode [51.43498132808724]
Diffusion large language model (D-LLMs) はjailbreak攻撃に対して本質的に堅牢であることを示す。
構成された良質なコンテキスト内に有害な要求が埋め込まれる、単純な、効果的な障害モードをコンテキストネストと呼ぶ。
この単純な戦略は、D-LLMの安全性を回避し、最先端の攻撃成功率を達成するのに十分であることを示す。
論文 参考訳(メタデータ) (2026-01-30T23:08:14Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - SWAP: Towards Copyright Auditing of Soft Prompts via Sequential Watermarking [58.475471437150674]
ソフトプロンプト(SWAP)のための逐次透かしを提案する。
SWAPは、特定のディフェンダー指定のアウト・オブ・ディストリビューション・クラスを通じて、透かしを符号化する。
11のデータセットの実験では、SWAPの有効性、無害性、および潜在的適応攻撃に対する堅牢性を示す。
論文 参考訳(メタデータ) (2025-11-05T13:48:48Z) - LatentGuard: Controllable Latent Steering for Robust Refusal of Attacks and Reliable Response Generation [4.29885665563186]
LATENTGUARDは、行動アライメントと教師付き潜在空間制御を組み合わせて、解釈可能で正確な安全操縦を行うフレームワークである。
本研究は, 実用性を損なうことなく, 安全性制御性と応答解釈性の両方を向上することを示す。
論文 参考訳(メタデータ) (2025-09-24T07:31:54Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - GraphAttack: Exploiting Representational Blindspots in LLM Safety Mechanisms [1.48325651280105]
本稿では,jailbreakプロンプトを生成する新しいグラフベースのアプローチを提案する。
我々は、異なる変換を示すエッジを持つグラフ構造において、悪意のあるプロンプトをノードとして表現する。
目的を実現するコードを生成するために LLM を指示することで,特に効果的なエクスプロイトベクトルを実証する。
論文 参考訳(メタデータ) (2025-04-17T16:09:12Z) - Understanding and Enhancing the Transferability of Jailbreaking Attacks [12.446931518819875]
脱獄攻撃は、オープンソースの大規模言語モデル(LLM)を効果的に操作し、有害な応答を生成する。
本研究は, モデルが意図的知覚に与える影響を分析し, 脱獄攻撃の伝達可能性について検討する。
そこで本研究では,入力中の中性インテリジェントトークンを均一に分散するPerceived-Iportance Flatten (PiF)法を提案する。
論文 参考訳(メタデータ) (2025-02-05T10:29:54Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。