論文の概要: A Fragile Guardrail: Diffusion LLM's Safety Blessing and Its Failure Mode
- arxiv url: http://arxiv.org/abs/2602.00388v1
- Date: Fri, 30 Jan 2026 23:08:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.153051
- Title: A Fragile Guardrail: Diffusion LLM's Safety Blessing and Its Failure Mode
- Title(参考訳): フレジブルガードレール:拡散LDMの安全祝福と故障モード
- Authors: Zeyuan He, Yupeng Chen, Lang Lin, Yihan Wang, Shenxu Chang, Eric Sommerlade, Philip Torr, Junchi Yu, Adel Bibi, Jialin Yu,
- Abstract要約: Diffusion large language model (D-LLMs) はjailbreak攻撃に対して本質的に堅牢であることを示す。
構成された良質なコンテキスト内に有害な要求が埋め込まれる、単純な、効果的な障害モードをコンテキストネストと呼ぶ。
この単純な戦略は、D-LLMの安全性を回避し、最先端の攻撃成功率を達成するのに十分であることを示す。
- 参考スコア(独自算出の注目度): 51.43498132808724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion large language models (D-LLMs) offer an alternative to autoregressive LLMs (AR-LLMs) and have demonstrated advantages in generation efficiency. Beyond the utility benefits, we argue that D-LLMs exhibit a previously underexplored safety blessing: their diffusion-style generation confers intrinsic robustness against jailbreak attacks originally designed for AR-LLMs. In this work, we provide an initial analysis of the underlying mechanism, showing that the diffusion trajectory induces a stepwise reduction effect that progressively suppresses unsafe generations. This robustness, however, is not absolute. We identify a simple yet effective failure mode, termed context nesting, where harmful requests are embedded within structured benign contexts, effectively bypassing the stepwise reduction mechanism. Empirically, we show that this simple strategy is sufficient to bypass D-LLMs' safety blessing, achieving state-of-the-art attack success rates across models and benchmarks. Most notably, it enables the first successful jailbreak of Gemini Diffusion, to our knowledge, exposing a critical vulnerability in commercial D-LLMs. Together, our results characterize both the origins and the limits of D-LLMs' safety blessing, constituting an early-stage red-teaming of D-LLMs.
- Abstract(参考訳): 拡散型大言語モデル (D-LLM) は自己回帰型LLM (AR-LLM) の代替であり、生成効率の優位性を示している。
それらの拡散型生成は、元々AR-LLM用に設計されたジェイルブレイク攻撃に対する本質的な堅牢性を示す。
本研究では,拡散軌道が段階的に低減効果を誘導し,不安全な世代を段階的に抑制することを示す。
しかし、この堅牢性は絶対的ではない。
そこでは,構成された良性コンテキスト内に有害な要求を埋め込んで,ステップワイズ削減機構を効果的に回避する,シンプルなフェールモードを,コンテキストネスト(context nesting)と呼ぶ。
経験的に、この単純な戦略は、D-LLMの安全性を回避し、モデルとベンチマーク間で最先端の攻撃成功率を達成するのに十分であることを示す。
中でも注目すべきは、Gemini Diffusionの最初のジェイルブレイクを私たちの知る限りで実現し、商用D-LLMの重大な脆弱性を露呈することです。
本研究は,D-LLMsの初期段階のレッドチームを構成するD-LLMsの安全祝福の起点と限界の両方を特徴付けるものである。
関連論文リスト
- Attributing and Exploiting Safety Vectors through Global Optimization in Large Language Models [50.91504059485288]
本報告では,全頭部のグローバルな最適化により,安全クリティカルな注意点を同時に識別するフレームワークを提案する。
我々は,アクティベーション・リマッチによって同定された安全ベクトルを利用する,新しい推論時ホワイトボックス・ジェイルブレイク法を開発した。
論文 参考訳(メタデータ) (2026-01-22T09:32:43Z) - Toward Safer Diffusion Language Models: Discovery and Mitigation of Priming Vulnerability [5.650647159993238]
拡散言語モデル (DLMs) は反復的 denoising を通じてトークンを並列に生成する。
本稿では, DLM が反復的 denoising プロセスから生じる致命的な脆弱性を明らかにする。
汚染された中間状態から安全な応答を生成するためにモデルを訓練するDLMに適した新しい安全アライメント手法を提案する。
論文 参考訳(メタデータ) (2025-10-01T06:35:23Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - Jailbreaking Large Language Diffusion Models: Revealing Hidden Safety Flaws in Diffusion-Based Text Generation [7.857304417560443]
拡散型言語モデルのための PArallel Decoding jailbreak (PAD) を提案する。
PADはジェイルブレイク攻撃の成功率を97%向上させ、重大な安全性上の脆弱性を明らかにしている。
自己回帰型大規模言語モデル (LLM) と比較して, LLDMは有害な生成速度を2倍に向上させる。
論文 参考訳(メタデータ) (2025-07-25T12:53:03Z) - The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs [39.85609149662187]
DLLMのユニークな安全性の弱点を生かした、最初の系統的な研究および脱獄攻撃フレームワークであるDIJAを提案する。
提案するDIJAは,dLLMのテキスト生成機構を利用した対向的インターリーブ・マスクテキストプロンプトを構築する。
本研究は, 新たな言語モデルにおいて, 安全アライメントの再考の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-07-15T08:44:46Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - Sugar-Coated Poison: Benign Generation Unlocks LLM Jailbreaking [14.541887120849687]
緊急エンジニアリングによる ジェイルブレイク攻撃は 重大な脅威になっています
本研究では,防衛閾値決定(DTD)の概念を導入し,LCMの良質な世代による潜在的安全性への影響を明らかにした。
本稿では,悪質な意図とは逆の意味の良質なインプットを構築するために,「セマンティック・リバーサル」戦略を用いたSugar-Coated Poison攻撃パラダイムを提案する。
論文 参考訳(メタデータ) (2025-04-08T03:57:09Z) - Watch the Watcher! Backdoor Attacks on Security-Enhancing Diffusion Models [65.30406788716104]
本研究では,セキュリティ強化拡散モデルの脆弱性について検討する。
これらのモデルは、シンプルで効果的なバックドア攻撃であるDIFF2に非常に感受性があることを実証する。
ケーススタディでは、DIFF2は、ベンチマークデータセットとモデル間で、パーフィケーション後の精度と認定精度の両方を著しく削減できることを示している。
論文 参考訳(メタデータ) (2024-06-14T02:39:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。