論文の概要: How to Train Your Latent Diffusion Language Model Jointly With the Latent Space
- arxiv url: http://arxiv.org/abs/2605.07933v1
- Date: Fri, 08 May 2026 16:05:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.186056
- Title: How to Train Your Latent Diffusion Language Model Jointly With the Latent Space
- Title(参考訳): 潜時拡散言語モデルと潜時空間を併用する学習方法
- Authors: Viacheslav Meshchaninov, Alexander Shabalin, Egor Chimbulatov, Nikita Gushchin, Ilya Koziev, Alexander Korotin, Dmitry Vetrov,
- Abstract要約: 遅延拡散モデルは、非自己回帰テキスト生成のための離散拡散の魅力的な代替手段を提供する。
本稿では、潜在エンコーダ、拡散モデル、デコーダを共同で訓練する潜在拡散言語モデル(LDLM)を提案する。
OpenWebTextとLM1Bでは、LDLMは既存の離散および連続拡散言語モデルよりも優れた生成性能を達成する。
- 参考スコア(独自算出の注目度): 76.9057986588963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Latent diffusion models offer an attractive alternative to discrete diffusion for non-autoregressive text generation by operating on continuous text representations and denoising entire sequences in parallel. The major challenge in latent diffusion modeling is constructing a suitable latent space. In this work, we present the Latent Diffusion Language Model (LDLM), in which the latent encoder, diffusion model, and decoder are trained jointly. LDLM builds its latent space by reshaping the representations of a pre-trained language model with a trainable encoder, yielding latents that are easy to both denoise and decode into tokens. We show that naive joint training produces a low-quality diffusion model, and propose a simple training recipe consisting of an MSE decoder loss, diffusion-to-encoder warmup, adaptive timestep sampling, and decoder-input noise. Ablations show that each component substantially impacts generation performance. On OpenWebText and LM1B, LDLM achieves better generation performance than existing discrete and continuous diffusion language models while being $2{\text -}13\times$ faster, indicating that jointly learning the latent space is a key step toward making latent diffusion competitive for text generation.
- Abstract(参考訳): 遅延拡散モデルは、連続したテキスト表現を操作し、全シーケンスを並列に記述することで、非自己回帰テキスト生成のための離散拡散の魅力的な代替手段を提供する。
潜時拡散モデリングにおける大きな課題は、適切な潜時空間を構築することである。
本研究では,遅延拡散言語モデル (LDLM) を提案する。このモデルでは,潜時エンコーダ,拡散モデル,デコーダを共同で訓練する。
LDLMは、訓練済みの言語モデルの表現をトレーニング可能なエンコーダで再構成することで、遅延空間を構築します。
提案手法は,MSEデコーダ損失,拡散-エンコーダウォームアップ,適応時間ステップサンプリング,デコーダ-インプットノイズからなる簡易なトレーニングレシピを提案する。
アブレーションは、各コンポーネントが生成性能に重大な影響を及ぼすことを示している。
OpenWebTextとLM1Bでは、LDLMは既存の離散および連続拡散言語モデルよりも高速な生成性能を実現し、テキスト生成において遅延空間を共同学習することが遅延拡散を競争力のあるものにするための重要なステップであることを示している。
関連論文リスト
- TextLDM: Language Modeling with Continuous Latent Diffusion [89.69255520673248]
拡散変換器(DiT)は、VAEラテント空間におけるフローマッチングで訓練され、画像やビデオ間で統一された視覚生成を行う。
最小限のアーキテクチャ変更で視覚的潜伏拡散のレシピをテキスト生成に転送するTextLDMを提案する。
論文 参考訳(メタデータ) (2026-05-08T13:54:34Z) - CoDAR: Continuous Diffusion Language Models are More Powerful Than You Think [17.27394520177311]
CoDARは、強いコンテキスト条件の離散化学習をしながら、埋め込み空間における拡散を完全に連続的に維持する2段階のフレームワークである。
LM1BとOpenWebTextの実験は、CoDARが潜伏拡散よりも生成品質を大幅に改善することを示した。
論文 参考訳(メタデータ) (2026-03-03T03:05:15Z) - LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model [77.66516875262963]
マルチモーダル理解・生成のための有効長適応オムニ拡散モデルである textbfLLaDA-o を提案する。
MoD上に構築されたデータ中心長適応戦略により,マルチモーダル環境でのフレキシブルなデコーディングを実現する。
実験により、LLaDA-oはマルチモーダル理解および生成ベンチマーク上でのオムニ拡散モデル間の最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2026-03-01T12:05:06Z) - Segment-Level Diffusion: A Framework for Controllable Long-Form Generation with Diffusion Language Models [12.446047799880587]
トークンレベルの拡散は、単語順依存を明示的にモデル化しない。
パッセージレベルの拡散は、長文の堅牢な表現を学習するのに苦労する。
拡散に基づくテキスト生成を促進するフレームワークであるSegment-Level Diffusionを提案する。
論文 参考訳(メタデータ) (2024-12-15T22:47:44Z) - Multimodal Latent Language Modeling with Next-Token Diffusion [111.93906046452125]
マルチモーダル生成モデルは、離散データ(テキストやコードなど)と連続データ(画像、オーディオ、ビデオなど)の両方を扱う統一的なアプローチを必要とする。
因果変換器を用いて連続データと離散データをシームレスに統合する潜在言語モデリング(LatentLM)を提案する。
論文 参考訳(メタデータ) (2024-12-11T18:57:32Z) - LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-Text Generation? [10.72249123249003]
我々は拡散モデルを再検討し、全体論的文脈モデリングと並列復号化の能力を強調した。
本稿では,分割BERTを用いた新しいアーキテクチャLaDiCを導入し,キャプション専用のラテント空間を創出する。
LaDiCは、38.2 BLEU@4と126.2 CIDErのMSデータセット上で拡散ベースのメソッドの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-16T17:47:16Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z) - Latent Diffusion for Language Generation [26.620353485679892]
言語への拡散を適応しようとする最近の試みは、既存の言語モデルの代替として拡散を提示している。
我々は,エンコーダ-デコーダ言語モデルを用いて,高品質なオートエンコーダを効率的に学習できることを実証した。
非条件, クラス条件, シーケンス・ツー・シーケンス言語生成に対する提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2022-12-19T13:57:06Z) - Semantic-Conditional Diffusion Networks for Image Captioning [116.86677915812508]
画像キャプションに適した拡散モデルに基づく新しいパラダイム,すなわちセマンティック・コンディション・ディフュージョン・ネットワーク(SCD-Net)を提案する。
SCD-Netでは、複数の拡散変換器構造を積み重ねて、より優れた視覚言語アライメントと言語的コヒーレンスで出力文を徐々に強化する。
COCOデータセットの実験は、困難な画像キャプションタスクにおいて拡散モデルを使用することの有望な可能性を示している。
論文 参考訳(メタデータ) (2022-12-06T16:08:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。