論文の概要: Bringing Stability to Diffusion: Decomposing and Reducing Variance of Training Masked Diffusion Models
- arxiv url: http://arxiv.org/abs/2511.18159v1
- Date: Sat, 22 Nov 2025 19:04:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.661535
- Title: Bringing Stability to Diffusion: Decomposing and Reducing Variance of Training Masked Diffusion Models
- Title(参考訳): 拡散に安定性をもたらす:訓練用マスク拡散モデルの分解・低減
- Authors: Mengni Jia, Mengyu Zhou, Yihao Liu, Xiaoxi Jiang, Guanjun Jiang,
- Abstract要約: マスク付き拡散モデル(MDMs)は自己回帰モデル(ARMs)に代わる有望な代替品である
高い分散は、よりノイズの多い勾配推定と不安定な最適化をもたらすため、同様に強い事前訓練されたMDMやARMもタスク固有の訓練後に分岐する。
A)マスキングパターンノイズ,(B)マスキングレートノイズ,(C)データノイズの3つの源にMDMトレーニングのばらつきを初めて分解した。
- 参考スコア(独自算出の注目度): 8.964977926797173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked diffusion models (MDMs) are a promising alternative to autoregressive models (ARMs), but they suffer from inherently much higher training variance. High variance leads to noisier gradient estimates and unstable optimization, so even equally strong pretrained MDMs and ARMs that are competitive at initialization often diverge after task-specific training, with MDMs falling far behind. There has been no theoretical explanation or systematic solution. We derive the first decomposition of MDM training variance into three sources: (A) masking pattern noise, (B) masking rate noise, and (C) data noise, while ARMs are only affected by (C). This explains the fundamental training gap. Building on this foundation, we design six variance-reduction methods, including two core methods: (1) P-POTS, a Pareto-optimal t sampler that minimizes training variance by sampling harder t values more often with appropriately smaller update steps, and (2) MIRROR, which uses negatively correlated samples to reduce (A). Experiments show that compared to standard MDM training, our methods improve accuracy by 7-8% on complex reasoning tasks, while simultaneously reducing run-to-run variability to near ARM levels, substantially narrowing the gap with strong ARM baselines; in most settings, even the best baseline runs remain below the worst run of our method.
- Abstract(参考訳): 仮面拡散モデル(MDMs)は自己回帰モデル(ARMs)に代わる有望な代替品であるが、本質的にはより高い訓練分散に悩まされている。
高い分散は、よりノイズの多い勾配推定と不安定な最適化をもたらすため、初期化に競争力を持つMDMとARMは、タスク固有のトレーニング後にしばしば分岐し、MDMははるかに遅れる。
理論的な説明や体系的な解決は行われていない。
A)マスキングパターンノイズ,(B)マスキングレートノイズ,(C)データノイズ,(C)ARMは(C)にしか影響しない。
これは、基本的なトレーニングギャップを説明します。
P-POTS (Pareto-Optimal t sampler) は, より厳密な t 値をより多くサンプリングし, より少ない更新ステップでトレーニング分散を最小化する手法であり, 2) 負の相関したサンプルを用いて (A) 削減を行うMIRROR である。
実験の結果,従来のMDMトレーニングと比較して,複雑な推論タスクにおいて精度を7~8%向上すると同時に,実行時の変動をARMに近いレベルに低減し,強力なARMベースラインとのギャップを大幅に狭めることができた。
関連論文リスト
- Score-based Membership Inference on Diffusion Models [3.742113529511043]
拡散モデルに対するメンバーシップ推論攻撃(MIA)は、プライバシーの懸念が強まっている。
本稿では,拡散モデルが近似することを学習する予測ノイズベクトルに着目し,スコアベースMIAの理論的,実証的研究を行う。
提案手法は, トレーニングセットに近づき, メンバシップが明らかになるような, 近隣のトレーニングサンプルのカーネル重み付き局所平均に対して, 期待されたデノイザ出力が向けられることを示す。
論文 参考訳(メタデータ) (2025-09-29T16:28:55Z) - MDPO: Overcoming the Training-Inference Divide of Masked Diffusion Language Models [28.79185891706149]
拡散言語モデルは、トレーニングと推論の主な相違に悩まされる。
本稿では,マルコフ特性拡散を利用するためのMasked Diffusion Policy Optimization (MDPO)を提案する。
本研究は,MDLMの事前学習と推測の相違を調査するための大きな可能性を見出した。
論文 参考訳(メタデータ) (2025-08-18T17:58:13Z) - Improved Diffusion-based Generative Model with Better Adversarial Robustness [65.38540020916432]
拡散確率モデル(DPM)は、生成タスクにおいて大きな成功を収めた。
デノナイジングプロセスでは、入力データ分布はトレーニングと推論の段階によって異なる。
論文 参考訳(メタデータ) (2025-02-24T12:29:16Z) - Score-of-Mixture Training: Training One-Step Generative Models Made Simple via Score Estimation of Mixture Distributions [3.347388046213879]
本稿では,一段階生成モデルの学習のための新しいフレームワークであるSMTを提案する。
SMTは、複数のノイズレベルにわたる実検体と偽検体の混合分布のスコアを推定する。
提案手法は,Score-of-Mixture Distillation (SMD)と呼ばれる事前学習拡散モデルを用いて,スクラッチ(SMT)と蒸留の両方のトレーニングを支援する。
論文 参考訳(メタデータ) (2025-02-13T18:57:20Z) - Adaptive Training Meets Progressive Scaling: Elevating Efficiency in Diffusion Models [52.1809084559048]
TDCトレーニングと呼ばれる新しい2段階分割型トレーニング戦略を提案する。
タスクの類似性と難易度に基づいてタイムステップをグループ化し、高度にカスタマイズされた復調モデルを各グループに割り当て、拡散モデルの性能を向上させる。
2段階のトレーニングでは、各モデルを個別にトレーニングする必要がなくなるが、総トレーニングコストは、単一の統合されたデノナイジングモデルをトレーニングするよりもさらに低い。
論文 参考訳(メタデータ) (2023-12-20T03:32:58Z) - One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion
Schedule Flaws and Enhancing Low-Frequency Controls [77.42510898755037]
One More Step (OMS) は、推論中に単純だが効果的なステップを付加したコンパクトネットワークである。
OMSは画像の忠実度を高め、トレーニングと推論の二分法を調和させ、元のモデルパラメータを保存する。
トレーニングが完了すると、同じ潜在ドメインを持つ様々な事前訓練された拡散モデルが同じOMSモジュールを共有することができる。
論文 参考訳(メタデータ) (2023-11-27T12:02:42Z) - Learning Energy-Based Models by Cooperative Diffusion Recovery Likelihood [64.95663299945171]
高次元データに基づくエネルギーベースモデル(EBM)の訓練は、困難かつ時間を要する可能性がある。
EBMと、GANや拡散モデルのような他の生成フレームワークとの間には、サンプル品質に顕著なギャップがある。
本研究では,協調拡散回復可能性 (CDRL) を提案する。
論文 参考訳(メタデータ) (2023-09-10T22:05:24Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。