論文の概要: Structured Semantic Cloaking for Jailbreak Attacks on Large Language Models
- arxiv url: http://arxiv.org/abs/2603.16192v1
- Date: Tue, 17 Mar 2026 07:20:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.143851
- Title: Structured Semantic Cloaking for Jailbreak Attacks on Large Language Models
- Title(参考訳): 大規模言語モデルにおけるジェイルブレイク攻撃のための構造的セマンティッククラック
- Authors: Xiaobing Sun, Perry Lam, Shaohua Li, Zizhou Wang, Rick Siow Mong Goh, Yong Liu, Liangli Zhen,
- Abstract要約: 本研究では,新しい多次元ジェイルブレイク攻撃フレームワークであるStructured Semantic Cloaking (S2C)を提案する。
S2Cはマルチステップ推論を必要とするようなセマンティックキューを戦略的に分散し、再結合する。
我々は、HarmBench と JBB-Behaviors を用いて、複数のオープンソースおよびプロプライエタリ LLM 上でS2Cを評価した。
- 参考スコア(独自算出の注目度): 28.741175254258422
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern LLMs employ safety mechanisms that extend beyond surface-level input filtering to latent semantic representations and generation-time reasoning, enabling them to recover obfuscated malicious intent during inference and refuse accordingly, and rendering many surface-level obfuscation jailbreak attacks ineffective. We propose Structured Semantic Cloaking (S2C), a novel multi-dimensional jailbreak attack framework that manipulates how malicious semantic intent is reconstructed during model inference. S2C strategically distributes and reshapes semantic cues such that full intent consolidation requires multi-step inference and long-range co-reference resolution within deeper latent representations. The framework comprises three complementary mechanisms: (1) Contextual Reframing, which embeds the request within a plausible high-stakes scenario to bias the model toward compliance; (2) Content Fragmentation, which disperses the semantic signature of the request across disjoint prompt segments; and (3) Clue-Guided Camouflage, which disguises residual semantic cues while embedding recoverable markers that guide output generation. By delaying and restructuring semantic consolidation, S2C degrades safety triggers that depend on coherent or explicitly reconstructed malicious intent at decoding time, while preserving sufficient instruction recoverability for functional output generation. We evaluate S2C across multiple open-source and proprietary LLMs using HarmBench and JBB-Behaviors, where it improves Attack Success Rate (ASR) by 12.4% and 9.7%, respectively, over the current SOTA. Notably, S2C achieves substantial gains on GPT-5-mini, outperforming the strongest baseline by 26% on JBB-Behaviors. We also analyse which combinations perform best against broad families of models, and characterise the trade-off between the extent of obfuscation versus input recoverability on jailbreak success.
- Abstract(参考訳): 現代のLSMは、表面レベルの入力フィルタリングを超えて、潜時意味表現や世代間推論まで拡張し、推論中に難解な悪意を回復し、それに従って拒否し、多くの表面レベルの難読化ジェイルブレイク攻撃を非効率にする安全メカニズムを採用している。
本研究では,モデル推論中に悪意ある意味的意図がどのように再構築されるかを制御する,新しい多次元ジェイルブレイク攻撃フレームワークであるStructured Semantic Cloaking (S2C)を提案する。
S2Cは、深い潜在表現の中で、多段階の推論と長距離の共参照解決を必要とするようなセマンティックキューを戦略的に分散し、再結合する。
本フレームワークは,(1)要求を高信頼シナリオ内に埋め込んだコンテキストリフレーミング,(2)要求のセマンティックシグネチャを非結合なプロンプトセグメントに分散するコンテンツフラグメンテーション,(3)残留セマンティックキューを偽装したクローズガイドカモフラージュ,の3つの補完メカニズムから構成される。
セマンティック・コンソリデーションの遅延と再構築により、S2Cは、関数出力生成のための十分な命令回復性を保ちながら、復号時にコヒーレントまたは明示的に再構成された悪意のある意図に依存する安全トリガを分解する。
我々は、HarmBench と JBB-Behaviors を用いて、複数のオープンソースおよびプロプライエタリ LLM で S2C を評価し、現在の SOTA に対して、攻撃成功率 (ASR) を 12.4% と 9.7% 改善した。
特に、S2CはGPT-5-miniで大幅に上昇し、JBB-Behaviorsでは26%で最強のベースラインを上回った。
また、どの組み合わせが幅広いモデルのファミリーに対して最適かを分析し、脱獄の成功に対する難読度と入力回復性の間のトレードオフを特徴付ける。
関連論文リスト
- Attributing and Exploiting Safety Vectors through Global Optimization in Large Language Models [50.91504059485288]
本報告では,全頭部のグローバルな最適化により,安全クリティカルな注意点を同時に識別するフレームワークを提案する。
我々は,アクティベーション・リマッチによって同定された安全ベクトルを利用する,新しい推論時ホワイトボックス・ジェイルブレイク法を開発した。
論文 参考訳(メタデータ) (2026-01-22T09:32:43Z) - ForgeDAN: An Evolutionary Framework for Jailbreaking Aligned Large Language Models [8.765213350762748]
ジェイルブレイク攻撃は 有害な出力を 引き出すためにアライメント・ガードをバイパスする
セマンティック・コヒーレントで高能率な対人プロンプトを生成するための新しいフレームワークであるForgeDANを提案する。
本評価は,従来のSOTAソリューションよりも優れた自然さとステルスを維持しつつ,高い脱獄率を達成することを示す。
論文 参考訳(メタデータ) (2025-11-17T16:19:21Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - bi-GRPO: Bidirectional Optimization for Jailbreak Backdoor Injection on LLMs [33.470999703070866]
既存のジェイルブレイクのトリガーを埋め込むアプローチは、一般化の貧弱さ、ステルスネスの妥協、文脈的ユーザビリティの低下といった制限に悩まされている。
ジェイルブレイクバックドア注入に適した新しいRLベースのフレームワークであるbi-GRPOを提案する。
論文 参考訳(メタデータ) (2025-09-24T05:56:41Z) - Forewarned is Forearmed: Pre-Synthesizing Jailbreak-like Instructions to Enhance LLM Safety Guardrail to Potential Attacks [29.465042445657947]
新しい攻撃は、大きな言語モデルが目に見えない悪意のある命令を認識できないことを露呈する。
組込み空間分布解析を利用してジェイルブレイクのような命令を生成する合成フレームワークIMAGINEを提案する。
Qwen2.5, Llama3.1, Llama3.2の攻撃成功率は, 有効性を損なうことなく著しく低下した。
論文 参考訳(メタデータ) (2025-08-27T16:44:03Z) - T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。
我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。
本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文 参考訳(メタデータ) (2025-04-22T01:18:42Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [81.98466438000086]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。