論文の概要: Characterizing Memorization in Diffusion Language Models: Generalized Extraction and Sampling Effects
- arxiv url: http://arxiv.org/abs/2603.02333v1
- Date: Mon, 02 Mar 2026 19:03:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.51647
- Title: Characterizing Memorization in Diffusion Language Models: Generalized Extraction and Sampling Effects
- Title(参考訳): 拡散言語モデルにおける暗記の特徴:一般化抽出とサンプリング効果
- Authors: Xiaoyu Luo, Wenrui Yu, Qiongxiu Li, Johannes Bjerva,
- Abstract要約: 拡散言語モデル (DLMs) は自己回帰言語モデル (ARMs) の代替として登場した。
DLMは、ARMと比較して、個人識別情報(PII)の記憶に基づくリークが著しく低い。
- 参考スコア(独自算出の注目度): 17.220195638215507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive language models (ARMs) have been shown to memorize and occasionally reproduce training data verbatim, raising concerns about privacy and copyright liability. Diffusion language models (DLMs) have recently emerged as a competitive alternative, yet their memorization behavior remains largely unexplored due to fundamental differences in generation dynamics. To address this gap, we present a systematic theoretical and empirical characterization of memorization in DLMs. We propose a generalized probabilistic extraction framework that unifies prefix-conditioned decoding and diffusion-based generation under arbitrary masking patterns and stochastic sampling trajectories. Theorem 4.3 establishes a monotonic relationship between sampling resolution and memorization: increasing resolution strictly increases the probability of exact training data extraction, implying that autoregressive decoding corresponds to a limiting case of diffusion-based generation by setting the sampling resolution maximal. Extensive experiments across model scales and sampling strategies validate our theoretical predictions. Under aligned prefix-conditioned evaluations, we further demonstrate that DLMs exhibit substantially lower memorization-based leakage of personally identifiable information (PII) compared to ARMs.
- Abstract(参考訳): 自己回帰言語モデル(ARM)は、トレーニングデータの冗長性を記憶し、時々再現することが示されている。
拡散言語モデル (DLMs) は近年競争力のある代替品として登場しているが, 生成力学の基本的な相違により, 記憶の挙動はほとんど解明されていない。
このギャップに対処するため,DLMにおける記憶の体系的および経験的特徴について述べる。
本稿では,任意のマスキングパターンと確率的サンプリングトラジェクトリの下で,プレフィックス条件付きデコーディングと拡散に基づく生成を統一する一般化確率抽出フレームワークを提案する。
Theorem 4.3はサンプリング分解能と記憶率のモノトニックな関係を確立し、サンプリング分解能を最大に設定することで自己回帰復号化が拡散生成の制限ケースに対応することを示唆し、精度の高いトレーニングデータ抽出の確率を厳密に増加させる。
モデルスケールにわたる広範囲な実験とサンプリング戦略は、我々の理論予測を検証する。
さらに,DLMがARMと比較して,個人識別情報(PII)の記憶に基づく漏洩が著しく低いことを示す。
関連論文リスト
- Score-based Membership Inference on Diffusion Models [3.742113529511043]
拡散モデルに対するメンバーシップ推論攻撃(MIA)は、プライバシーの懸念が強まっている。
本稿では,拡散モデルが近似することを学習する予測ノイズベクトルに着目し,スコアベースMIAの理論的,実証的研究を行う。
提案手法は, トレーニングセットに近づき, メンバシップが明らかになるような, 近隣のトレーニングサンプルのカーネル重み付き局所平均に対して, 期待されたデノイザ出力が向けられることを示す。
論文 参考訳(メタデータ) (2025-09-29T16:28:55Z) - Bigger Isn't Always Memorizing: Early Stopping Overparameterized Diffusion Models [56.032091696552094]
自然データ領域の一般化は、記憶の開始前に訓練中に徐々に達成される。
一般化対メモ化は、時間スケール間の競合として最もよく理解される。
この現象学は,確率論的文脈自由文法をランダムな規則で学習する拡散モデルにおいて復元されることを示す。
論文 参考訳(メタデータ) (2025-05-22T17:40:08Z) - Spatial Reasoning with Denoising Models [49.83744014336816]
本稿では,連続変数の集合に対する推論を行うためのフレームワークを提案する。
初めて、その生成順序をデノナイジングネットワーク自体によって予測できる。
これらの結果から,特定の推論タスクの精度を1%から50%に向上させることができる。
論文 参考訳(メタデータ) (2025-02-28T14:08:30Z) - Theoretical Benefit and Limitation of Diffusion Language Model [47.579673047639126]
拡散言語モデルは、テキスト生成の有望なアプローチとして現れてきた。
本稿では,広く使われている拡散言語モデルMasked Diffusion Model(MDM)の厳密な理論的解析について述べる。
我々の分析は、MDMの利点と限界を理解するための最初の理論的基盤を確立している。
論文 参考訳(メタデータ) (2025-02-13T18:59:47Z) - SIDE: Surrogate Conditional Data Extraction from Diffusion Models [32.18993348942877]
textbfSurrogate condItional Data extract (SIDE) は、データ駆動型サロゲート条件を構築し、任意のDPMからターゲット抽出を可能にするフレームワークである。
SIDEは、いわゆる安全無条件モデルからトレーニングデータを抽出し、条件付きモデルであってもベースラインアタックより優れていることを示す。
我々の研究は、DPMの脅威状況を再定義し、厳密な条件付けを基本的な脆弱性として確立し、モデルプライバシ評価のための新しいより強力なベンチマークを設定します。
論文 参考訳(メタデータ) (2024-10-03T13:17:06Z) - Detecting, Explaining, and Mitigating Memorization in Diffusion Models [49.438362005962375]
そこで本研究では,テキスト条件予測の大きさを検査することで,暗黙のプロンプトを検出する方法を提案する。
提案手法はサンプリングアルゴリズムを中断することなくシームレスに統合し,第1世代でも高い精度を実現する。
検出戦略に基づいて,個々の単語やトークンの記憶への寄与を示す説明可能なアプローチを提示する。
論文 参考訳(メタデータ) (2024-07-31T16:13:29Z) - Extracting Training Data from Unconditional Diffusion Models [76.85077961718875]
拡散確率モデル(DPM)は、生成人工知能(AI)の主流モデルとして採用されている。
本研究の目的は,1) 理論解析のための記憶量,2) 情報ラベルとランダムラベルを用いた条件記憶量,3) 記憶量測定のための2つのより良い評価指標を用いて,DPMにおける記憶量の理論的理解を確立することである。
提案手法は,理論解析に基づいて,SIDE (textbfSurrogate condItional Data extract) と呼ばれる新しいデータ抽出手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T16:20:12Z) - An Inversion-based Measure of Memorization for Diffusion Models [37.9715620828388]
拡散モデルは、データの記憶をトレーニングし、著作権侵害やプライバシー侵害に関する懸念を提起する。
InvMMは,画像の複製を考慮に入れた感度潜時雑音分布の反転に基づく,インバージョンに基づく暗黙化尺度である。
InvMMはサンプル間で共振可能であり、正反対の立場から記憶の真の範囲を明らかにし、記憶がメンバーシップとどのように異なるかを示す。
論文 参考訳(メタデータ) (2024-05-09T15:32:00Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - On Memorization in Diffusion Models [44.031805633114985]
より小さなデータセットでは記憶の挙動が生じる傾向があることを示す。
我々は、有効モデル記憶(EMM)の観点から、影響因子がこれらの記憶行動に与える影響を定量化する。
本研究は,拡散モデル利用者にとって実用的意義を持ち,深部生成モデルの理論研究の手がかりを提供する。
論文 参考訳(メタデータ) (2023-10-04T09:04:20Z) - Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。
提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文 参考訳(メタデータ) (2023-04-10T17:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。