論文の概要: Balancing Understanding and Generation in Discrete Diffusion Models
- arxiv url: http://arxiv.org/abs/2602.01362v1
- Date: Sun, 01 Feb 2026 18:00:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.74181
- Title: Balancing Understanding and Generation in Discrete Diffusion Models
- Title(参考訳): 離散拡散モデルにおけるバランシング理解と生成
- Authors: Yue Liu, Yuzhong Zhao, Zheyong Xie, Qixiang Ye, Jianbin Jiao, Yao Hu, Shaosheng Cao, Yunfan Liu,
- Abstract要約: Masked Diffusion Language Models (MDLM) は意味理解とゼロショットの一般化に優れる。
UDLM(Uniform-Noise Diffusion Language Models)は、強力な数ステップ生成品質を実現する。
定常雑音カーネルを介して2つのパラダイムをブリッジするXDLMを提案する。
- 参考スコア(独自算出の注目度): 58.62235340638143
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In discrete generative modeling, two dominant paradigms demonstrate divergent capabilities: Masked Diffusion Language Models (MDLM) excel at semantic understanding and zero-shot generalization, whereas Uniform-noise Diffusion Language Models (UDLM) achieve strong few-step generation quality, yet neither attains balanced performance across both dimensions. To address this, we propose XDLM, which bridges the two paradigms via a stationary noise kernel. XDLM offers two key contributions: (1) it provides a principled theoretical unification of MDLM and UDLM, recovering each paradigm as a special case; and (2) an alleviated memory bottleneck enabled by an algebraic simplification of the posterior probabilities. Experiments demonstrate that XDLM advances the Pareto frontier between understanding capability and generation quality. Quantitatively, XDLM surpasses UDLM by 5.4 points on zero-shot text benchmarks and outperforms MDLM in few-step image generation (FID 54.1 vs. 80.8). When scaled to tune an 8B-parameter large language model, XDLM achieves 15.0 MBPP in just 32 steps, effectively doubling the baseline performance. Finally, analysis of training dynamics reveals XDLM's superior potential for long-term scaling. Code is available at https://github.com/MzeroMiko/XDLM
- Abstract(参考訳): MDLM(Masked Diffusion Language Models)は意味理解とゼロショットの一般化に優れ、UDLM(Uniform-noise Diffusion Language Models)は強力な数ステップ生成品質を達成できるが、両次元でバランスの取れた性能は達成できない。
そこで本研究では,静止雑音カーネルを介して2つのパラダイムをブリッジするXDLMを提案する。
XDLMは,(1)MDLMとUDLMを原理的に統一し,それぞれのパラダイムを特別なケースとして回収すること,(2)後部確率の代数的単純化によって実現されたメモリボトルネックを緩和すること,の2つの重要な貢献を提供する。
実験により、XDLMは理解能力と生成品質の間のParetoフロンティアを前進させることが示された。
XDLMは、ゼロショットテキストベンチマークではUDLMを5.4ポイント上回り、数ステップ画像生成ではMDLMを上回っている(FID 54.1 vs. 80.8)。
8Bパラメータの大言語モデルをチューニングするためにスケールすると、XDLMはわずか32ステップで15.0MBPPを達成する。
最後に、トレーニングダイナミクスの分析により、XDLMの長期スケーリングに対する優れたポテンシャルが明らかになる。
コードはhttps://github.com/MzeroMiko/XDLMで入手できる。
関連論文リスト
- Parallelism and Generation Order in Masked Diffusion Language Models: Limits Today, Potential Tomorrow [30.201913054064363]
Masked Diffusion Language Modelsは並列トークン生成と任意の順序復号を約束する。
並列性強度と生成順序の2次元に沿ってMDLMの挙動を特徴付ける。
我々は、知識、推論、プログラミングにまたがる58のベンチマークで8つのメインストリームMDLMを評価した。
論文 参考訳(メタデータ) (2026-01-22T02:39:36Z) - Reproducing and Dissecting Denoising Language Models for Speech Recognition [31.91567892562116]
音声認識(ASR)のための従来の言語モデル(LM)に代わる強力な代替手段として、DLM(Denoising Language Model)が提案されている。
本稿では,DLMの大規模独立研究について述べる。
論文 参考訳(メタデータ) (2025-12-15T17:33:22Z) - Saber: An Efficient Sampling with Adaptive Acceleration and Backtracking Enhanced Remasking for Diffusion Language Model [98.35868970993232]
拡散言語モデル(DLM)は、支配的な自己回帰パラダイムに代わる強力で有望な選択肢として現れています。
コード生成における推論速度と出力品質の向上を実現するために,適応加速度を用いた効率的なサンプリングとバックトラック強化リマッシング(セイバー)を導入する。
論文 参考訳(メタデータ) (2025-10-20T23:38:12Z) - Sequential Diffusion Language Models [110.06562906987052]
拡散言語モデル(DLM)は理論効率が強いが、固定長の復号化とキー値キャッシュとの非互換性によって制限される。
次点と次点の予測を統一するNext Sequence Prediction (NSP)を導入する。
本稿では,事前学習した自己回帰言語モデル(ALM)を最小限のコストで再現可能な逐次拡散言語モデル(SDLM)を提案する。
論文 参考訳(メタデータ) (2025-09-28T17:59:15Z) - DLM-One: Diffusion Language Models for One-Step Sequence Generation [63.43422118066493]
DLM-Oneは連続拡散言語モデルを用いた1ステップシーケンス生成のためのスコア蒸留ベースのフレームワークである。
DLM-Oneが言語モデリングにおけるサンプリング効率を大幅に向上できるかどうかを検討する。
論文 参考訳(メタデータ) (2025-05-30T22:42:23Z) - Multimodal Latent Language Modeling with Next-Token Diffusion [111.93906046452125]
マルチモーダル生成モデルは、離散データ(テキストやコードなど)と連続データ(画像、オーディオ、ビデオなど)の両方を扱う統一的なアプローチを必要とする。
因果変換器を用いて連続データと離散データをシームレスに統合する潜在言語モデリング(LatentLM)を提案する。
論文 参考訳(メタデータ) (2024-12-11T18:57:32Z) - Joint Prompt Optimization of Stacked LLMs using Variational Inference [66.04409787899583]
大規模言語モデル(LLM)は、列上の分布への計算マッピングシーケンスの原子単位と見なすことができる。
そのような2つのレイヤを積み重ねて1つのレイヤの出力を次のレイヤに供給することで、Deep Language Network(DLN)を得る。
DLN-2は単一層よりも高い性能に到達できることを示し、GPT-4に匹敵する性能に達することを約束する。
論文 参考訳(メタデータ) (2023-06-21T18:45:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。