FuguReport

Continuous Latent Diffusion Language Model

著者 Hongcan Guo, Qinyu Zhao, Yian Zhao, Shen Nie, Rui Zhu, Qiushan Guo, Feng Wang, Tao Yang, Hengshuang Zhao, Guoqiang Wei, Yan Zeng
所属 Renmin University of China / ByteDance / Peking University / The Australian National University / The University of Hong Kong
カテゴリ Method / Latent Diffusion / Hierarchical information decomposition, Task / Text Generation / Efficient and scalable text generation, Evaluation / Model Efficiency / Generation efficiency and scalability
ライセンス CC BY 4.0

Abstractの概要

本論文は、テキスト生成を連続潜在空間におけるグローバルな意味組織化とローカルなテキスト実現(条件付きデコーディング)に分解する階層的連続潜在拡散言語モデル「Cola DLM」を提案する。このモデルはまずText VAEで安定したテキストから潜在表現へのマッピングを学習し、次にフローマッチングを用いたブロック因果DiTで連続潜在事前分布をフィッティングし、最終的にテキストをブロック単位で生成する。著者らはこれをトークンレベルの観測復元ではなく潜在事前分布の輸送として位置づけ、自己回帰モデル、離散拡散言語モデル、トークン整列型連続拡散手法との差別化を図っている。本研究は理論的分析と、4つの研究課題、8つのベンチマーク、厳密にマッチされた約2Bパラメータの自己回帰およびLLaDAベースライン、約2000 EFLOPsまでのスケーリング曲線にわたる実験を組み合わせている。

新規性

主な新規性は、テキストトークンやトークン整列表現を直接ノイズ除去するのではなく、拡散を用いて言語の階層的連続潜在事前分布をモデル化し、統一的な確率的枠組み内でグローバルな意味組織化とローカルなテキスト実現を明示的に分離する点にある。また、Cola DLMとAR、離散拡散、連続トークン空間手法を比較する統一マルコフ経路ビューを導入し、この潜在事前分布定式化が有利となる条件を特徴づけるレート歪みスタイルの分析を提供している。

成果

実験により、潜在空間における共有グローバル意味構造が潜在次元に伴う系統的タイムシフトドリフトを通じて確認され、安定した初期化からのVAE-DiT共同学習、適度なDiTブロックサイズ(16)、校正されたノイズスケジュール(loc=1)、適度な推論ガイダンス(CFG=7、16デノイジングステップ)を含む効果的な構成が特定された。8つのベンチマークにわたる厳密にマッチされた生成評価プロトコルの下で、Cola DLMは強力なスケーリング挙動を示し、高い計算予算において比較モデル中最高のタスク平均性能に到達し、特にMMLU、RACE、Story Cloze、OBQAなどの推論集約的およびグローバル意味タスクで明確な優位性を示した。

論文の注目点

  1. Cola DLMは言語生成を、グローバル意味のための連続潜在事前分布モデリング(フローマッチングによるブロック因果DiT)とローカルテキスト実現のための条件付きデコーディングに分解し、観測復元ではなく潜在事前分布の輸送に拡散を使用する。
  2. 実証研究により、性能は潜在空間の形成と拡散の校正に強く依存することが判明し、VAE-DiT共同学習のための安定したVAE初期化、BERTスタイルの意味的平滑性損失、学習可能なVAE logSNR、適度なブロックサイズ、適切なノイズスケジュールの整列が重要であることが示された。
  3. 統一的なfew-shot生成評価プロトコルの下での自己回帰およびLLaDAベースラインとのマッチされた比較において、Cola DLMは競争力のある、あるいはより強いスケーリング傾向を示し、特にグローバルな意味組織化と推論に依存するタスクで、高い計算予算において最高のタスク平均性能に到達した。

参考リンク

このページはGPT-5、Claude Opus 4、Gemini 3、Gemini 3.1 Flash Image 及びその上位バージョンなどの生成AIを用いて作成されています。内容の保証は一切できません。