論文の概要: Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2604.02340v2
- Date: Sat, 11 Apr 2026 10:21:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.299913
- Title: Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models
- Title(参考訳): より高速なマスキング拡散言語モデルのためのモデルスケジューリング
- Authors: Ivan Sedykh, Nikita Sorokin, Valentin Malykh,
- Abstract要約: 拡散フレームワークとモデルスケジューリングの柔軟性を利用して、より小さなMDLMがデノナイジングステップのサブセットでフルモデルを置き換える。
その結果,早期・後期段階は中段よりもかなり頑健であり,FLOPは最大17%減少することがわかった。
提案手法は, MDLMサンプリングを著しく高速化し, 生成品質を保ちながら, 簡易かつアーキテクチャに依存しないスケジューリング規則を適用できることを示唆する。
- 参考スコア(独自算出の注目度): 6.4453302264198165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in masked diffusion language models (MDLMs) narrow the quality gap to autoregressive LMs, but their sampling remains expensive because generation requires many full-sequence denoising passes with a large Transformer and, unlike autoregressive decoding, cannot benefit from KV caching. In this work, we exploit the flexibility of the diffusion framework and study model scheduling, where a smaller MDLM replaces the full model at a subset of denoising steps. Across models trained on OpenWebText and LM1B, we show that early and late denoising steps are substantially more robust to such replacement than middle steps, enabling up to a 17% reduction in FLOPs with only modest degradation in generative perplexity under both unconditional and prefix-conditional generation, while preserving sample diversity. We support these findings with a step-importance analysis based on loss and KL divergence between small and large models across timesteps, as well as an exhaustive search over coarse step segments, both of which identify the middle of the diffusion trajectory as most sensitive consistently across datasets. Our results suggest that simple, architecture-agnostic scheduling rules can significantly accelerate MDLM sampling while largely preserving generation quality.
- Abstract(参考訳): マスク拡散言語モデル(MDLM)の最近の進歩は、自己回帰型LMの品質ギャップを狭めているが、そのサンプリングは、大規模なトランスフォーマーで多くの完全列復号化パスを必要とするため、KVキャッシングの恩恵を受けることができないため、高価である。
本研究では,拡散フレームワークとモデルスケジューリングの柔軟性を利用して,より小さなMDLMがデノゲーションステップのサブセットでモデル全体を置き換える手法を提案する。
OpenWebText と LM1B で訓練されたモデル全体では,初期段階と後期段階は,中段階よりもかなり頑健であり,非条件およびプレフィックス条件の両方で生成パープレキシティがわずかに低下したFLOPの最大17%の削減が可能であり,サンプルの多様性は保たれている。
本研究は,各ステップ間の損失とKLの分散に基づくステップ重要度解析と,データセット間の拡散軌跡の中央を最も敏感に識別する粗いステップセグメントを網羅的に探索することを支援する。
提案手法は, MDLMサンプリングを著しく高速化し, 生成品質を保ちながら, 簡易かつアーキテクチャに依存しないスケジューリング規則を適用できることを示唆する。
関連論文リスト
- Simple Denoising Diffusion Language Models [32.08084107137018]
我々は一様状態拡散モデル(USDM)の簡易化に基づく損失法を提案する。
対照的に負の勾配に着想を得たデノナイジング損失に簡単な修正を加え, 実用的であり, 生成品質の向上が期待できる。
論文 参考訳(メタデータ) (2025-10-27T02:05:26Z) - Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [60.407727995313074]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - FlashDLM: Accelerating Diffusion Language Model Inference via Efficient KV Caching and Guided Diffusion [22.207275433870937]
拡散言語モデルは並列トークン生成と本質的に双方向性を提供する。
最先端拡散モデル(ドリーム7B、LLaDA 8Bなど)は推論が遅い。
我々は,トークンアンマキングを監督するために,軽量な事前学習型自己回帰モデルを用いた学習自由度法であるガイドド拡散を導入する。
論文 参考訳(メタデータ) (2025-05-27T17:39:39Z) - Variational Autoencoding Discrete Diffusion with Enhanced Dimensional Correlations Modeling [48.96034602889216]
Variencoding Discrete Diffusion (VADD) は、潜在変数モデリングによる離散拡散を強化する新しいフレームワークである。
補助的認識モデルを導入することにより、VADDはトレーニングセット上の変分下界と償却推論を介して安定したトレーニングを可能にする。
2Dトイデータ、画素レベルの画像生成、テキスト生成に関する実証結果は、VADDがMDMベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-05-23T01:45:47Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Conditional GAN for Enhancing Diffusion Models in Efficient and Authentic Global Gesture Generation from Audios [10.57695963534794]
VAEに基づく手法には、局所的なジッタとグローバルな不安定性の問題が伴う。
本稿では,音声制御信号を捕捉し,拡散段差と発声段差の多モーダル denoising 分布を暗黙的に一致させる条件付き GAN を提案する。
論文 参考訳(メタデータ) (2024-10-27T07:25:11Z) - One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion
Schedule Flaws and Enhancing Low-Frequency Controls [77.42510898755037]
One More Step (OMS) は、推論中に単純だが効果的なステップを付加したコンパクトネットワークである。
OMSは画像の忠実度を高め、トレーニングと推論の二分法を調和させ、元のモデルパラメータを保存する。
トレーニングが完了すると、同じ潜在ドメインを持つ様々な事前訓練された拡散モデルが同じOMSモジュールを共有することができる。
論文 参考訳(メタデータ) (2023-11-27T12:02:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。