論文の概要: SpatialJB: How Text Distribution Art Becomes the "Jailbreak Key" for LLM Guardrails
- arxiv url: http://arxiv.org/abs/2601.09321v1
- Date: Wed, 14 Jan 2026 09:47:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.35219
- Title: SpatialJB: How Text Distribution Art Becomes the "Jailbreak Key" for LLM Guardrails
- Title(参考訳): SpaceJB: LLMガードレールの「ジェイルブレイクキー」となるテキスト配信アート
- Authors: Zhiyi Mou, Jingyuan Yang, Zeheng Qian, Wangze Ni, Tianfang Xiao, Ning Liu, Chen Zhang, Zhan Qin, Kui Ren,
- Abstract要約: 大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
LLMは有害な出力をフィルタリングするために自己回帰的でトークン・バイ・推論に依存している。
本研究では,有害なコンテンツを検出せずにガードレールをバイパスできる空間JBを提案する。
- 参考スコア(独自算出の注目度): 32.525888883371174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) have powerful capabilities, they remain vulnerable to jailbreak attacks, which is a critical barrier to their safe web real-time application. Current commercial LLM providers deploy output guardrails to filter harmful outputs, yet these defenses are not impenetrable. Due to LLMs' reliance on autoregressive, token-by-token inference, their semantic representations lack robustness to spatially structured perturbations, such as redistributing tokens across different rows, columns, or diagonals. Exploiting the Transformer's spatial weakness, we propose SpatialJB to disrupt the model's output generation process, allowing harmful content to bypass guardrails without detection. Comprehensive experiments conducted on leading LLMs get nearly 100% ASR, demonstrating the high effectiveness of SpatialJB. Even after adding advanced output guardrails, like the OpenAI Moderation API, SpatialJB consistently maintains a success rate exceeding 75%, outperforming current jailbreak techniques by a significant margin. The proposal of SpatialJB exposes a key weakness in current guardrails and emphasizes the importance of spatial semantics, offering new insights to advance LLM safety research. To prevent potential misuse, we also present baseline defense strategies against SpatialJB and evaluate their effectiveness in mitigating such attacks. The code for the attack, baseline defenses, and a demo are available at https://anonymous.4open.science/r/SpatialJailbreak-8E63.
- Abstract(参考訳): 大きな言語モデル(LLM)には強力な能力があるが、Jailbreak攻撃に弱いままであり、これは彼らの安全なWebリアルタイムアプリケーションにとって重要な障壁である。
現在の商業LLMプロバイダは有害な出力をフィルタリングするために出力ガードレールを配備しているが、これらの防御は実現不可能である。
LLMの自己回帰的トークン・バイ・トークン推論への依存のため、それらの意味表現は、異なる行、列、または対角線でトークンを再分配するなど、空間的に構造化された摂動に対する堅牢性に欠ける。
本研究では,トランスフォーマーの空間的弱点を突破し,SpatialJBを提案する。
LLMを先導する総合的な実験は100% ASR に近づき、SpatialJB の有効性を実証した。
OpenAIモデレーションAPIのような高度な出力ガードレールを追加した後も、SpatialJBは一貫して75%以上の成功率を維持し、現在のjailbreakテクニックよりも大幅に向上している。
このSpatialJBの提案は、現在のガードレールの重要な弱点を明らかにし、空間意味論の重要性を強調し、LLM安全研究を進めるための新たな洞察を提供する。
また,潜在的な誤用を防止するため,SpatialJBに対するベースライン防衛戦略を提示し,その効果を評価した。
攻撃のコードはhttps://anonymous.4open.science/r/SpatialJailbreak-8E63で公開されている。
関連論文リスト
- Why Not Act on What You Know? Unleashing Safety Potential of LLMs via Self-Aware Guard Enhancement [48.50995874445193]
大規模言語モデル(LLM)は、様々なタスクにわたって印象的な機能を示しているが、細心の注意を払って構築されたジェイルブレイク攻撃には弱いままである。
SAGE(Self-Aware Guard Enhancement)は,LSMの強い安全識別性能と比較的弱い安全生成能力とを整合させる訓練不要防衛戦略である。
論文 参考訳(メタデータ) (2025-05-17T15:54:52Z) - xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [55.253208152184065]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。
我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。
安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文 参考訳(メタデータ) (2024-12-22T14:18:39Z) - HSF: Defending against Jailbreak Attacks with Hidden State Filtering [14.031010511732008]
隠れ状態フィルタ(HSF)に基づくジェイルブレイク攻撃防御戦略を提案する。
HSFは、推論プロセスが始まる前に、モデルが相手の入力をプリエンプティブに識別し、拒否することを可能にする。
不正なユーザクエリに対する応答を最小限に抑えながら、Jailbreak攻撃の成功率を大幅に低下させる。
論文 参考訳(メタデータ) (2024-08-31T06:50:07Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。