論文の概要: Continuous Diffusion Scales Competitively with Discrete Diffusion for Language
- arxiv url: http://arxiv.org/abs/2605.18530v1
- Date: Mon, 18 May 2026 15:15:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.899133
- Title: Continuous Diffusion Scales Competitively with Discrete Diffusion for Language
- Title(参考訳): 離散拡散と競合する連続拡散尺度
- Authors: Zhihan Yang, Wei Guo, Shuibai Zhang, Subham Sekhar Sahoo, Yongxin Chen, Arash Vahdat, Morteza Mardani, John Thickstun,
- Abstract要約: 確率ベース連続拡散言語モデル(DLM)としてRePlaidを構築する。
自己回帰モデルと比較すると,RePlaidの計算ギャップは20ドル程度であることがわかった。
また、可能性に基づくトレーニングの利点を理解するための理論的洞察も提供します。
- 参考スコア(独自算出の注目度): 48.290726603587444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While diffusion has drawn considerable recent attention from the language modeling community, continuous diffusion has appeared less scalable than discrete approaches. To challenge this belief we revisit Plaid, a likelihood-based continuous diffusion language model (DLM), and construct RePlaid by aligning the architecture of Plaid with modern discrete DLMs. In this unified setting, we establish the first scaling law for continuous DLMs that rivals discrete DLMs: RePlaid exhibits a compute gap of only $20\times$ compared to autoregressive models, outperforms Duo while using fewer parameters, and outperforms MDLM in the over-trained regime. We benchmark RePlaid against recent continuous DLMs: on OpenWebText, RePlaid achieves a new state-of-the-art PPL bound of $22.1$ among continuous DLMs and superior generation quality. These results suggest that continuous diffusion, when trained via likelihood, is a highly competitive and scalable alternative to discrete DLMs. Moreover, we offer theoretical insights to understand the advantage of likelihood-based training. We show that optimizing the noise schedule to minimize the ELBO's variance naturally yields linear cross-entropy (information loss) over time. This evenly distributes denoising difficulty without any case-specific time reparameterization. In addition, we find that optimizing embeddings via likelihood creates structured geometries and drives the most significant likelihood gain.
- Abstract(参考訳): 拡散は言語モデリングコミュニティから注目されているが、連続拡散は離散的なアプローチよりもスケーラビリティが低いように見える。
この信念に挑戦するために、我々は、可能性に基づく連続拡散言語モデル(DLM)であるPlaidを再検討し、Plaidのアーキテクチャを現代の離散DLMと整合させることでRePlaidを構築する。
RePlaidは自己回帰モデルと比較して20ドル程度の計算ギャップを示し、パラメータを少なくしてDuoを上回り、過度に訓練されたシステムではMDLMを上回ります。
OpenWebTextでは、RePlaidは継続的DLM間の22.1ドルという新しい最先端のPPLバウンダリを実現し、より優れた生成品質を実現しています。
これらの結果から, 連続拡散は離散DLMに対して非常に競争力があり, 拡張性が高いことが示唆された。
さらに、可能性に基づくトレーニングの利点を理解するための理論的洞察を提供する。
ELBOの分散を最小化するためにノイズスケジュールを最適化することは、時間とともに線形なクロスエントロピー(情報損失)をもたらすことを示す。
これは、ケース固有の時間パラメータ化なしで、難聴度を均等に分配する。
さらに、埋め込みの最適化は構造的ジオメトリーを生み出し、最も大きな可能性を得る。
関連論文リスト
- ELF: Embedded Language Flows [76.80499600969769]
連続言語モデルは離散領域への最小適応で有効にすることができることを示す。
連続埋め込み空間における拡散モデルのクラスである埋め込み言語フロー(ELF)を提案する。
ELFは離散的かつ連続的なDLMよりも大幅に優れ、サンプリングステップを少なくして生成品質が向上する。
論文 参考訳(メタデータ) (2026-05-11T17:59:29Z) - Consistent Diffusion Language Models [22.253153649144476]
拡散言語モデル (DLMs) は、サブタイム、並列生成を約束するが、実用的ゲインは未解決のままである。
連続領域では、確率フローODEに沿った一貫性のトレーニングが拡散を加速する一般的なレシピである。
我々は,これらの橋を横断するパスイン予測をデノイザに訓練する新しい原理である,マルチパス離散整合性(DCMP)を導入する。
1つのCDLMの目的は、マスク拡散、連続一貫性モデル、進行/離散蒸留を1つの共通の見解の分析的限界または経験的近似として統一することである。
論文 参考訳(メタデータ) (2026-04-30T19:31:02Z) - One-step Language Modeling via Continuous Denoising [36.18484491074519]
本研究では,フローベース連続デノゲーションを利用した言語モデルが,品質と速度の両面で離散拡散よりも優れていることを示す。
我々の研究は、離散拡散過程は離散モダリティ上の生成的モデリングに必要である、という広く支持されている仮説に疑問を投げかける。
論文 参考訳(メタデータ) (2026-02-18T19:23:07Z) - Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models [6.4453302264198165]
拡散フレームワークとモデルスケジューリングの柔軟性を利用して、より小さなMDLMがデノナイジングステップのサブセットでフルモデルを置き換える。
その結果,早期・後期段階は中段よりもかなり頑健であり,FLOPは最大17%減少することがわかった。
提案手法は, MDLMサンプリングを著しく高速化し, 生成品質を保ちながら, 簡易かつアーキテクチャに依存しないスケジューリング規則を適用できることを示唆する。
論文 参考訳(メタデータ) (2026-02-04T13:04:58Z) - Causal Autoregressive Diffusion Language Model [70.7353007255797]
CARDは厳密な因果注意マスク内の拡散過程を再構成し、単一の前方通過で密集した1対1の監視を可能にする。
我々の結果は,CARDが並列生成のレイテンシの利点を解放しつつ,ARMレベルのデータ効率を実現することを示す。
論文 参考訳(メタデータ) (2026-01-29T17:38:29Z) - Bridging the Discrete-Continuous Gap: Unified Multimodal Generation via Coupled Manifold Discrete Absorbing Diffusion [60.186310080523135]
離散データ(テキスト)に対する自己回帰的アプローチと連続データ(画像)に対する拡散的アプローチへの生成的モデリングの分岐は、真に統一されたマルチモーダルシステムの開発を妨げる。
階層的二重プロセスとしてマルチモーダル生成を再構成する新しい確率的フレームワークである textbfCoM-DAD を提案する。
提案手法は、標準的なマスキングモデルよりも優れた安定性を示し、スケーラブルで統一されたテキスト画像生成のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2026-01-07T16:21:19Z) - Latent Discrete Diffusion Models [18.979326092796896]
言語および他の分類データに対する離散拡散について検討する。
EmphLatent Discrete Diffusion Models (LDDM)を提案する。
i)トークンと潜伏剤の完全結合分解を行うFUJI-LDDMと(ii)シークエントを逐次分解するSEQ-LDDMの2つのインスタンスを提案する。
どちらの変種に対しても、ELBOスタイルの目的を導出し、ディファソインモデリングに適さない情報的潜伏者を学習するための設計選択について議論する。
論文 参考訳(メタデータ) (2025-10-20T21:26:52Z) - Improving Vector-Quantized Image Modeling with Latent Consistency-Matching Diffusion [55.185588994883226]
VQ-LCMDは、学習を安定させる埋め込み空間内の連続空間潜在拡散フレームワークである。
VQ-LCMDは、関節埋め込み拡散変動下界と整合整合性(CM)損失を組み合わせた新しいトレーニング目標を使用する。
実験により,提案したVQ-LCMDは離散状態潜伏拡散モデルと比較して,FFHQ,LSUN教会,LSUNベッドルームにおいて優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2024-10-18T09:12:33Z) - Unified Discrete Diffusion for Categorical Data [37.56355078250024]
離散拡散のためのより正確で容易に最適なトレーニングを可能にする変分下界の数学的単純化について述べる。
本稿では, 精密かつ高速なサンプリングが可能な後方復調法と, 離散時間および連続時間離散拡散のエレガントな統一法を導出する。
論文 参考訳(メタデータ) (2024-02-06T04:42:36Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。