論文の概要: Membership Inference Attacks Against Fine-tuned Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2601.20125v1
- Date: Tue, 27 Jan 2026 23:40:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.699932
- Title: Membership Inference Attacks Against Fine-tuned Diffusion Language Models
- Title(参考訳): 微調整拡散言語モデルに対するメンバーシップ推論攻撃
- Authors: Yuetian Chen, Kaiyuan Zhang, Yuntao Du, Edoardo Stoppa, Charles Fleming, Ashish Kundu, Bruno Ribeiro, Ninghui Li,
- Abstract要約: Diffusion Language Models (DLMs) は自己回帰型言語モデルに代わる有望な代替品である。
本稿では,DLMにおけるMIA(Commanship Inference Attacks)の脆弱性を初めて体系的に調査する。
サマ(サブセット・アグリゲート・メンバーシップ・アタック)を導入し、ロバストアグリゲーションによるスパース信号問題に対処する。
- 参考スコア(独自算出の注目度): 14.835693946869178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Language Models (DLMs) represent a promising alternative to autoregressive language models, using bidirectional masked token prediction. Yet their susceptibility to privacy leakage via Membership Inference Attacks (MIA) remains critically underexplored. This paper presents the first systematic investigation of MIA vulnerabilities in DLMs. Unlike the autoregressive models' single fixed prediction pattern, DLMs' multiple maskable configurations exponentially increase attack opportunities. This ability to probe many independent masks dramatically improves detection chances. To exploit this, we introduce SAMA (Subset-Aggregated Membership Attack), which addresses the sparse signal challenge through robust aggregation. SAMA samples masked subsets across progressive densities and applies sign-based statistics that remain effective despite heavy-tailed noise. Through inverse-weighted aggregation prioritizing sparse masks' cleaner signals, SAMA transforms sparse memorization detection into a robust voting mechanism. Experiments on nine datasets show SAMA achieves 30% relative AUC improvement over the best baseline, with up to 8 times improvement at low false positive rates. These findings reveal significant, previously unknown vulnerabilities in DLMs, necessitating the development of tailored privacy defenses.
- Abstract(参考訳): Diffusion Language Models (DLMs) は、双方向のマスク付きトークン予測を用いて、自動回帰言語モデルに代わる有望な選択肢である。
しかし、メンバーシップ推論攻撃(MIA)によるプライバシー漏洩への感受性は、いまだに過小評価されている。
本稿では,DLMにおけるMIA脆弱性に関する最初の系統的研究について述べる。
自己回帰モデルの単一固定予測パターンとは異なり、DLMの複数のマスク可能な構成は攻撃機会を指数関数的に増加させる。
多くの独立したマスクを探査するこの能力は、検出可能性を大幅に改善する。
そこで本稿では,SAMA(Subset-Aggregated Membership Attack)を導入し,ロバストアグリゲーションによるスパース信号問題に対処する。
SAMAは、プログレッシブ密度のサブセットをマスクし、重い尾のノイズにもかかわらず有効であるサインベースの統計を適用した。
スパースマスクのクリーナー信号を優先する逆重集約により、SAMAはスパース記憶検出を堅牢な投票機構に変換する。
9つのデータセットの実験では、SAMAは最高のベースラインに対して30%の相対的なAUC改善を達成し、偽陽性率で最大8倍の改善を達成している。
これらの結果から、DLMの重大な脆弱性が明らかとなり、適切なプライバシ・ディフェンスの開発が必要となった。
関連論文リスト
- dUltra: Ultra-Fast Diffusion Language Models via Reinforcement Learning [36.12942468805232]
マスク付き拡散言語モデルは並列トークン生成の可能性を秘めている。
オープンソースのMDLMは、モデルフォワードパス毎に5トークン未満をデコードする。
dUltraは効率的な並列デコーディングのためのアンマスク戦略を学ぶ。
論文 参考訳(メタデータ) (2025-12-24T23:31:48Z) - Learning Unmasking Policies for Diffusion Language Models [33.44995119635116]
言語モデル(dLLM)は、多くのタスクにおいて、自己回帰的な処理の下流のパフォーマンスにマッチする。
特別なマスクトークンで満たされたバッファが、モデルの語彙からサンプリングされたトークンに徐々に置き換えられる。
本研究では,強化学習を用いたサンプリング手順の訓練を提案する。
論文 参考訳(メタデータ) (2025-12-09T20:44:33Z) - MDiff4STR: Mask Diffusion Model for Scene Text Recognition [59.79818820650126]
Mask Diffusion Models (MDM) は、視覚言語タスクのための自動回帰モデル (ARM) に代わる有望な代替品として登場した。
我々は,認識効率は向上するが,バニラMDMがARMに遅れていることを示す。
シーンテキスト認識に適した2つの重要な改善戦略を備えたマスク拡散モデルMDiff4STRを提案する。
論文 参考訳(メタデータ) (2025-12-01T08:57:51Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - Defending Pre-trained Language Models as Few-shot Learners against
Backdoor Attacks [72.03945355787776]
軽快でプラガブルで効果的な PLM 防御である MDP を,少人数の学習者として提唱する。
我々は,MDPが攻撃の有効性と回避性の両方を選択できる興味深いジレンマを発生させることを解析的に示す。
論文 参考訳(メタデータ) (2023-09-23T04:41:55Z) - Membership Inference Attacks against Diffusion Models [0.0]
拡散モデルは近年、革新的な生成モデルとして注目されている。
本研究では,拡散モデルがメンバシップ推論攻撃に耐性があるかどうかを検討する。
論文 参考訳(メタデータ) (2023-02-07T05:20:20Z) - Dual Spoof Disentanglement Generation for Face Anti-spoofing with Depth
Uncertainty Learning [54.15303628138665]
フェース・アンチ・スプーフィング(FAS)は、顔認識システムが提示攻撃を防ぐ上で重要な役割を担っている。
既存のフェース・アンチ・スプーフィング・データセットは、アイデンティティと重要なばらつきが不十分なため、多様性を欠いている。
我々は「生成によるアンチ・スプーフィング」によりこの問題に対処するデュアル・スポット・ディアンタングメント・ジェネレーション・フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-01T15:36:59Z) - Towards Adversarial Patch Analysis and Certified Defense against Crowd
Counting [61.99564267735242]
安全クリティカルな監視システムの重要性から、群衆のカウントは多くの注目を集めています。
近年の研究では、ディープニューラルネットワーク(DNN)の手法が敵の攻撃に弱いことが示されている。
群衆カウントモデルのロバスト性を評価するために,Momentumを用いた攻撃戦略としてAdversarial Patch Attackを提案する。
論文 参考訳(メタデータ) (2021-04-22T05:10:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。