論文の概要: TextLDM: Language Modeling with Continuous Latent Diffusion
- arxiv url: http://arxiv.org/abs/2605.07748v1
- Date: Fri, 08 May 2026 13:54:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.084376
- Title: TextLDM: Language Modeling with Continuous Latent Diffusion
- Title(参考訳): TextLDM: 連続遅延拡散を用いた言語モデリング
- Authors: Jiaxiu Jiang, Jingjing Ren, Wenbo Li, Bo Wang, Haoze Sun, Yijun Yang, Jianhui Liu, Yanbing Zhang, Shenghe Zheng, Yuan Zhang, Haoyang Huang, Nan Duan, Wangmeng Zuo,
- Abstract要約: 拡散変換器(DiT)は、VAEラテント空間におけるフローマッチングで訓練され、画像やビデオ間で統一された視覚生成を行う。
最小限のアーキテクチャ変更で視覚的潜伏拡散のレシピをテキスト生成に転送するTextLDMを提案する。
- 参考スコア(独自算出の注目度): 89.69255520673248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Transformers (DiT) trained with flow matching in a VAE latent space have unified visual generation across images and videos. A natural next step toward a single architecture for both generation (visual synthesis) and understanding (text generation) is to apply this framework to language modeling. We propose TextLDM, which transfers the visual latent diffusion recipe to text generation with minimal architectural modification. A Transformer-based VAE maps discrete tokens to continuous latents, enhanced by Representation Alignment (REPA) with a frozen pretrained language model to produce representations effective for conditional denoising. A standard DiT then performs flow matching in this latent space, identical in architecture to its visual counterpart. The central challenge we address is obtaining high-quality continuous text representations: we find that reconstruction fidelity alone is insufficient, and that aligning latent features with a pretrained language model via REPA is critical for downstream generation quality. Trained from scratch on OpenWebText2, TextLDM substantially outperforms prior diffusion language models and matches GPT-2 under the same settings. Our results establish that the visual DiT recipe transfers effectively to language, taking a concrete step toward unified diffusion architectures for multimodal generation and understanding.
- Abstract(参考訳): 拡散変換器(DiT)は、VAEラテント空間におけるフローマッチングで訓練され、画像やビデオ間で統一された視覚生成を行う。
生成(視覚合成)と理解(テキスト生成)の両方のための単一のアーキテクチャに向けた自然な次のステップは、このフレームワークを言語モデリングに適用することである。
最小限のアーキテクチャ変更で視覚的潜伏拡散のレシピをテキスト生成に転送するTextLDMを提案する。
TransformerベースのVAEは、Representation Alignment (REPA)によって強化された離散トークンを連続潜伏子にマッピングし、凍結した事前学習言語モデルを用いて条件付き復調に有効な表現を生成する。
標準のDiTは、この潜在空間でフローマッチングを実行する。
再構築の忠実度だけでは不十分であり、REPAによる事前訓練された言語モデルとの整合性は、下流生成の品質に不可欠である。
OpenWebText2でスクラッチからトレーニングされたTextLDMは、事前拡散言語モデルを大幅に上回り、同じ設定でGPT-2にマッチする。
その結果、視覚的なDiTレシピは言語に効果的に移行し、マルチモーダル生成と理解のための統合拡散アーキテクチャに向けて具体的な一歩を踏み出した。
関連論文リスト
- How to Train Your Latent Diffusion Language Model Jointly With the Latent Space [76.9057986588963]
遅延拡散モデルは、非自己回帰テキスト生成のための離散拡散の魅力的な代替手段を提供する。
本稿では、潜在エンコーダ、拡散モデル、デコーダを共同で訓練する潜在拡散言語モデル(LDLM)を提案する。
OpenWebTextとLM1Bでは、LDLMは既存の離散および連続拡散言語モデルよりも優れた生成性能を達成する。
論文 参考訳(メタデータ) (2026-05-08T16:05:19Z) - Continuous Latent Diffusion Language Model [48.974403879186916]
大規模言語モデルは自己回帰パラダイムの下で顕著な成功を収めた。
既存の代替手段は、生成効率、スケーラブルな表現学習、効果的なグローバルセマンティックモデリングを共同で達成するのに依然として苦労している。
階層型情報分解によりテキスト生成をフレーム化する階層型潜在拡散言語モデルCola DLMを提案する。
論文 参考訳(メタデータ) (2026-05-07T16:44:56Z) - LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-Text Generation? [10.72249123249003]
我々は拡散モデルを再検討し、全体論的文脈モデリングと並列復号化の能力を強調した。
本稿では,分割BERTを用いた新しいアーキテクチャLaDiCを導入し,キャプション専用のラテント空間を創出する。
LaDiCは、38.2 BLEU@4と126.2 CIDErのMSデータセット上で拡散ベースのメソッドの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-16T17:47:16Z) - Learning from Mistakes: Iterative Prompt Relabeling for Text-to-Image Diffusion Model Training [33.51524424536508]
Iterative Prompt Relabeling (IPR) は、反復的な画像サンプリングを通じて画像をテキストにアライメントし、フィードバックでリテラブルを促す新しいアルゴリズムである。
我々はSDv2とSDXLについて徹底的な実験を行い、空間関係の指示に従う能力をテストする。
論文 参考訳(メタデータ) (2023-12-23T11:10:43Z) - Reason out Your Layout: Evoking the Layout Master from Large Language
Models for Text-to-Image Synthesis [47.27044390204868]
本稿では,レイアウト生成器としてLarge Language Models (LLM) を用いたT2I拡散モデルの改良手法を提案する。
実験により,画像の画質とレイアウト精度が大幅に向上した。
論文 参考訳(メタデータ) (2023-11-28T14:51:13Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - Semantic-Conditional Diffusion Networks for Image Captioning [116.86677915812508]
画像キャプションに適した拡散モデルに基づく新しいパラダイム,すなわちセマンティック・コンディション・ディフュージョン・ネットワーク(SCD-Net)を提案する。
SCD-Netでは、複数の拡散変換器構造を積み重ねて、より優れた視覚言語アライメントと言語的コヒーレンスで出力文を徐々に強化する。
COCOデータセットの実験は、困難な画像キャプションタスクにおいて拡散モデルを使用することの有望な可能性を示している。
論文 参考訳(メタデータ) (2022-12-06T16:08:16Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。