論文の概要: DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models
- arxiv url: http://arxiv.org/abs/2509.24296v1
- Date: Mon, 29 Sep 2025 05:17:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.760568
- Title: DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models
- Title(参考訳): DiffuGuard: 拡散型大規模言語モデルにおける本質的な安全性の喪失と発見方法
- Authors: Zherui Li, Zheng Nie, Zhenhong Zhou, Yufei Guo, Yue Liu, Yitong Zhang, Yu Cheng, Qingsong Wen, Kun Wang, Jiaheng Zhang,
- Abstract要約: 我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
- 参考スコア(独自算出の注目度): 50.21378052667732
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of Diffusion Large Language Models (dLLMs) introduces unprecedented vulnerabilities that are fundamentally distinct from Autoregressive LLMs, stemming from their iterative and parallel generation mechanisms. In this paper, we conduct an in-depth analysis of dLLM vulnerabilities to jailbreak attacks across two distinct dimensions: intra-step and inter-step dynamics. Experimental results reveal a harmful bias inherent in the standard greedy remasking strategy and identify a critical phenomenon we term Denoising-path Dependence, where the safety of early-stage tokens decisively influences the final output. These findings also indicate that while current decoding strategies constitute a significant vulnerability, dLLMs possess a substantial intrinsic safety potential. To unlock this potential, we propose DiffuGuard, a training-free defense framework that addresses vulnerabilities through a dual-stage approach: Stochastic Annealing Remasking dynamically introduces controlled randomness to mitigate greedy selection bias, while Block-level Audit and Repair exploits internal model representations for autonomous risk detection and guided correction. Comprehensive experiments on four dLLMs demonstrate DiffuGuard's exceptional effectiveness, reducing Attack Success Rate against six diverse jailbreak methods from 47.9% to 14.7% while preserving model utility and efficiency. Our code is available at: https://github.com/niez233/DiffuGuard.
- Abstract(参考訳): Diffusion Large Language Models (dLLMs) の急速な進歩は、自己回帰 LLM とは根本的に異なる前例のない脆弱性を導入し、その反復的および並列生成機構から生まれた。
本稿では、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対するdLLM脆弱性の詳細な解析を行う。
実験結果から,標準グリージーリメイキング戦略に固有の有害なバイアスが明らかとなり,初期トークンの安全性が最終出力に決定的に影響を及ぼす「デノイングパス依存」と呼ばれる重要な現象が同定された。
これらの結果は、現在の復号化戦略が重大な脆弱性を構成する一方で、dLLMsは本質的な安全性のかなりの可能性を秘めていることを示している。
確率的アニーリング リマスキーは、制御されたランダム性を導入し、欲求選択バイアスを軽減し、ブロックレベルの監査と修正は、自律的なリスク検出とガイド付き修正のために内部モデル表現を利用する。
4つのdLLMに関する総合的な実験は、DiffuGuardの例外的な効果を示し、モデルの有用性と効率を保ちながら、6つの多様なジェイルブレイク手法に対するアタック成功率を47.9%から14.7%に下げた。
私たちのコードは、https://github.com/niez233/DiffuGuard.comで利用可能です。
関連論文リスト
- SafeLLM: Unlearning Harmful Outputs from Large Language Models against Jailbreak Attacks [29.963044242980345]
ジェイルブレイク攻撃は、大規模言語モデルの安全性に深刻な脅威をもたらす。
我々は,新しい非学習型防衛フレームワークであるSafeLLMを提案する。
SafeLLMは高い汎用性能を維持しながら攻撃成功率を大幅に低下させることを示す。
論文 参考訳(メタデータ) (2025-08-21T02:39:14Z) - Learning to Detect Unknown Jailbreak Attacks in Large Vision-Language Models: A Unified and Accurate Approach [22.248911000455706]
本稿では、異常検出としてジェイルブレイク検出を定式化する、新しい教師なしフレームワークを提案する。
LoDは最先端の性能を達成し、平均的なAUROCは0.9951で、最強のベースラインよりも最小のAUROCは38.89%向上した。
論文 参考訳(メタデータ) (2025-08-08T16:13:28Z) - Jailbreaking Large Language Diffusion Models: Revealing Hidden Safety Flaws in Diffusion-Based Text Generation [7.857304417560443]
拡散型言語モデルのための PArallel Decoding jailbreak (PAD) を提案する。
PADはジェイルブレイク攻撃の成功率を97%向上させ、重大な安全性上の脆弱性を明らかにしている。
自己回帰型大規模言語モデル (LLM) と比較して, LLDMは有害な生成速度を2倍に向上させる。
論文 参考訳(メタデータ) (2025-07-25T12:53:03Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
本手法は,強力なガードレールモデルの検出下であっても,有害なコンテンツ生成のためにバックドアを様々なLSMに効果的に注入する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [65.41451412400609]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - LLMs can be Dangerous Reasoners: Analyzing-based Jailbreak Attack on Large Language Models [21.02295266675853]
我々は,新たなブラックボックスジェイルブレイク攻撃手法,Analyzing-based Jailbreak (ABJ)を提案する。
ABJは2つの独立した攻撃経路から構成され、モデルのマルチモーダル推論機能を利用して安全機構をバイパスする。
我々の研究は、新しいタイプの安全リスクを明らかにし、モデルの推論プロセスにおける暗黙の脆弱性を軽減する緊急の必要性を強調します。
論文 参考訳(メタデータ) (2024-07-23T06:14:41Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - Watch the Watcher! Backdoor Attacks on Security-Enhancing Diffusion Models [65.30406788716104]
本研究では,セキュリティ強化拡散モデルの脆弱性について検討する。
これらのモデルは、シンプルで効果的なバックドア攻撃であるDIFF2に非常に感受性があることを実証する。
ケーススタディでは、DIFF2は、ベンチマークデータセットとモデル間で、パーフィケーション後の精度と認定精度の両方を著しく削減できることを示している。
論文 参考訳(メタデータ) (2024-06-14T02:39:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。