論文の概要: Backdooring Masked Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2605.19262v1
- Date: Tue, 19 May 2026 02:20:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.073272
- Title: Backdooring Masked Diffusion Language Models
- Title(参考訳): バックドア・マスク付き拡散言語モデル
- Authors: Daniel Yiming Cao, Chengzhong Wang, Sheng-Yen Chou, Chengyu Huang, Pin-Yu Chen, Shengwei An,
- Abstract要約: 本研究はMDLMに対する訓練時バックドア攻撃に関する最初の体系的研究である。
本研究は,MDLMの前方破壊プロセスを変更するバックドアアタックであるSHADOWMASKを提案する。
DiTベースのMDLMとLLaDA-8B-InstructのWikiText-103、OpenWebText、Alpacaによる評価は、SHADOWMASKがほぼ100%の攻撃成功を達成していることを示している。
- 参考スコア(独自算出の注目度): 46.57066684106858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked diffusion language models (MDLMs) are emerging as a compelling new paradigm for text generation, but their training-time security remains largely unexplored. Existing backdoor attacks on Gaussian diffusion models or autoregressive language models do not directly apply to MDLMs because MDLMs rely on discrete state corruption and iterative denoising rather than continuous noising or left-to-right prediction. In this work, we present the first systematic study of training-time backdoor attacks on MDLMs. We propose SHADOWMASK, a backdoor attack that modifies the MDLM forward corruption process by replacing the standard all-mask terminal distribution with a trigger-mask mixture prior. This creates a dedicated denoising pathway from trigger-corrupted states to attacker-specified targets while preserving clean denoising behavior. We further provide a principled mathematical formulation by defining the backdoored forward process, deriving the reverse-time posterior, and obtaining the continuous-time training objective. Evaluations on DiT-based MDLM and LLaDA-8B-Instruct across WikiText-103, OpenWebText, and Alpaca show that SHADOWMASK achieves near-100% attack success, substantially outperforms standard data poisoning, largely preserves clean utility, remains effective under full-model and parameter-efficient fine-tuning, and is robust against representative defenses.
- Abstract(参考訳): マズード拡散言語モデル(MDLM)はテキスト生成の魅力的な新しいパラダイムとして登場しているが、そのトレーニング時間セキュリティはほとんど解明されていない。
既存のガウス拡散モデルや自己回帰言語モデルに対するバックドア攻撃はMDLMに直接適用されない。
本研究は,MDLMにおける訓練時バックドア攻撃に関する最初の体系的研究である。
本稿では,従来のオールマスク端末分布をトリガーマスク混入に置き換えることで,MDLMの前方汚職プロセスを変更するバックドアアタックであるSHADOWMASKを提案する。
これにより、トリガーが破損した状態から攻撃者が特定したターゲットへの専用のデノゲーションパスが作成され、クリーンなデノゲーション動作が維持される。
さらに、バックドアフォワードプロセスを定義し、逆時間後部を導出し、連続時間トレーニング目標を得るという原理的な数学的定式化を提供する。
DiTベースのMDLMとLLaDA-8B-InstructのWikiText-103、OpenWebText、Alpacaによる評価は、SHADOWMASKが攻撃成功のほぼ100%を達成し、標準的なデータ中毒を大幅に上回り、クリーンなユーティリティを保ち、完全なモデルとパラメータ効率の良い微調整の下で有効であり、代表防御に対して堅牢であることを示している。
関連論文リスト
- BadDLM: Backdooring Diffusion Language Models with Diverse Targets [35.316538349611406]
拡散言語モデル(DLM)は、最近、自己回帰(AR)言語モデルに代わるモデリングパラダイムとして登場した。
我々は,多種多様なターゲットを持つDLMに対するバックドア攻撃を研究するための統合フレームワークであるBadDLMを提案する。
本研究は,拡散型言語生成における新たなセキュリティリスクのクラスを明らかにし,DLMに合わせた防衛を呼びかけることを目的とした。
論文 参考訳(メタデータ) (2026-05-10T07:50:02Z) - Self-Purification Mitigates Backdoors in Multimodal Diffusion Language Models [74.1970982768771]
確立されたデータポゾンパイプラインは,MDLMにバックドアを埋め込むことに成功した。
拡散自己浄化(Diffusion Self-Purification)と呼ばれるMDLMのバックドア防御フレームワークについて紹介する。
論文 参考訳(メタデータ) (2026-02-24T15:47:52Z) - Membership Inference Attacks Against Fine-tuned Diffusion Language Models [14.835693946869178]
Diffusion Language Models (DLMs) は自己回帰型言語モデルに代わる有望な代替品である。
本稿では,DLMにおけるMIA(Commanship Inference Attacks)の脆弱性を初めて体系的に調査する。
サマ(サブセット・アグリゲート・メンバーシップ・アタック)を導入し、ロバストアグリゲーションによるスパース信号問題に対処する。
論文 参考訳(メタデータ) (2026-01-27T23:40:07Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - Diff-Cleanse: Identifying and Mitigating Backdoor Attacks in Diffusion Models [3.134071086568745]
拡散モデル(DM)は、今日では最も先進的な生成モデルの一つと見なされている。
近年の研究では、DMはバックドア攻撃に弱いことが示唆されている。
この脆弱性は、モデル所有者に評判を害するなど、重大なリスクをもたらす。
Diff-Cleanseは、DM用に特別に設計された2段階のバックドア防御フレームワークである。
論文 参考訳(メタデータ) (2024-07-31T03:54:41Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - VillanDiffusion: A Unified Backdoor Attack Framework for Diffusion
Models [69.20464255450788]
拡散モデル(英: Diffusion Models, DM)は、可逆的ノイズ付加から可逆的腐敗過程を学習し、雑音を除去する手法である。
最近の研究では、基本的な無条件DMがバックドア注入に弱いことが示されている。
本稿では,DMのバックドア分析の現在の範囲を広げるために,統合されたバックドア攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-12T05:14:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。