論文の概要: BadDLM: Backdooring Diffusion Language Models with Diverse Targets
- arxiv url: http://arxiv.org/abs/2605.09397v1
- Date: Sun, 10 May 2026 07:50:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 14:41:07.827382
- Title: BadDLM: Backdooring Diffusion Language Models with Diverse Targets
- Title(参考訳): BadDLM: 異なるターゲットを持つ拡散言語モデルのバックドア化
- Authors: Shengfang Zhai, Xiaoyang Ji, Yuling Shi, Haoran Gao, Fanyu Meng, Yan Zeng, Yuejian Fang, Yinpeng Dong, Jiaheng Zhang,
- Abstract要約: 拡散言語モデル(DLM)は、最近、自己回帰(AR)言語モデルに代わるモデリングパラダイムとして登場した。
我々は,多種多様なターゲットを持つDLMに対するバックドア攻撃を研究するための統合フレームワークであるBadDLMを提案する。
本研究は,拡散型言語生成における新たなセキュリティリスクのクラスを明らかにし,DLMに合わせた防衛を呼びかけることを目的とした。
- 参考スコア(独自算出の注目度): 35.316538349611406
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion language models (DLMs) have recently emerged as an alternative modeling paradigm to autoregressive (AR) language models, enabling parallel generation and bidirectional context modeling. Yet their security implications, particularly their vulnerability to backdoor attacks, remain underexplored. We propose BadDLM, a unified framework for studying backdoor attacks against DLMs with diverse targets. We introduce a trigger-aware training objective that emphasizes target-relevant positions in poisoned samples, and theoretically prove that this objective is equivalent to training under an induced forward masking distribution. Unlike backdoors in autoregressive models, which typically manipulate next-token prediction, this characterization indicates that BadDLM can implant backdoors by exploiting the forward masking process. We instantiate BadDLM across different target levels: concept injection (BadDLM_Concept), semantic attribute steering (BadDLM_Attribute), alignment bypass (BadDLM_Align), and code payload injection (BadDLM_Payload). Experiments on mainstream open-source DLMs show that BadDLM achieves strong attack effectiveness across diverse targets while largely preserving benign utility, and remains effective against defenses designed for AR backdoors. Our findings expose a new class of security risks in diffusion-based language generation and call for defenses tailored to DLM denoising dynamics.
- Abstract(参考訳): 拡散言語モデル(DLM)は、最近、自動回帰(AR)言語モデルに代わるモデリングパラダイムとして登場し、並列生成と双方向コンテキストモデリングを可能にした。
しかし、彼らのセキュリティ、特にバックドア攻撃に対する脆弱性は、まだ未調査のままだ。
我々は,多種多様なターゲットを持つDLMに対するバックドア攻撃を研究するための統合フレームワークであるBadDLMを提案する。
本研究は,有毒試料における標的関連位置を強調したトリガー・アウェア・トレーニング・ターゲットを導入し,この目標が前向きマスク分布の誘導によるトレーニングと等価であることを理論的に証明する。
この特徴は、BadDLMがフォワードマスキングプロセスを利用してバックドアを埋め込むことができることを示している。
コンセプトインジェクション(BadDLM_Concept)、セマンティック属性ステアリング(BadDLM_Attribute)、アライメントバイパス(BadDLM_Align)、コードペイロードインジェクション(BadDLM_Payload)である。
主流のオープンソースDLMの実験では、BadDLMは多種多様なターゲットに対して強力な攻撃効果を達成しつつ、良質なユーティリティを保ち、ARバックドア用に設計された防御に対して有効であることが示されている。
本研究は,拡散型言語生成における新たなセキュリティリスクのクラスを明らかにし,DLMに合わせた防衛を呼びかけることを目的とした。
関連論文リスト
- Self-Purification Mitigates Backdoors in Multimodal Diffusion Language Models [74.1970982768771]
確立されたデータポゾンパイプラインは,MDLMにバックドアを埋め込むことに成功した。
拡散自己浄化(Diffusion Self-Purification)と呼ばれるMDLMのバックドア防御フレームワークについて紹介する。
論文 参考訳(メタデータ) (2026-02-24T15:47:52Z) - VillanDiffusion: A Unified Backdoor Attack Framework for Diffusion
Models [69.20464255450788]
拡散モデル(英: Diffusion Models, DM)は、可逆的ノイズ付加から可逆的腐敗過程を学習し、雑音を除去する手法である。
最近の研究では、基本的な無条件DMがバックドア注入に弱いことが示されている。
本稿では,DMのバックドア分析の現在の範囲を広げるために,統合されたバックドア攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-12T05:14:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。