論文の概要: DMax: Aggressive Parallel Decoding for dLLMs
- arxiv url: http://arxiv.org/abs/2604.08302v1
- Date: Thu, 09 Apr 2026 14:35:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.969037
- Title: DMax: Aggressive Parallel Decoding for dLLMs
- Title(参考訳): DMax: dLLMの攻撃的並列デコーディング
- Authors: Zigeng Chen, Gongfan Fang, Xinyin Ma, Ruonan Yu, Xinchao Wang,
- Abstract要約: 効率的な拡散言語モデル(dLLM)のための新しいパラダイムであるDMaxを提案する。
並列デコードにおけるエラーの蓄積を軽減し、生成品質を維持しながらアグレッシブデコードを可能にする。
当社のアプローチの核心は、マスクと均一なdLLMを効率的に統合する新しいトレーニング戦略であるOn-Policy Uniform Trainingである。
- 参考スコア(独自算出の注目度): 77.24184219948337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present DMax, a new paradigm for efficient diffusion language models (dLLMs). It mitigates error accumulation in parallel decoding, enabling aggressive decoding parallelism while preserving generation quality. Unlike conventional masked dLLMs that decode through a binary mask-to-token transition, DMax reformulates decoding as a progressive self-refinement from mask embeddings to token embeddings. At the core of our approach is On-Policy Uniform Training, a novel training strategy that efficiently unifies masked and uniform dLLMs, equipping the model to recover clean tokens from both masked inputs and its own erroneous predictions. Building on this foundation, we further propose Soft Parallel Decoding. We represent each intermediate decoding state as an interpolation between the predicted token embedding and the mask embedding, enabling iterative self-revising in embedding space. Extensive experiments across a variety of benchmarks demonstrate the effectiveness of DMax. Compared with the original LLaDA-2.0-mini, our method improves TPF on GSM8K from 2.04 to 5.47 while preserving accuracy. On MBPP, it increases TPF from 2.71 to 5.86 while maintaining comparable performance. On two H200 GPUs, our model achieves an average of 1,338 TPS at batch size 1. Code is available at: https://github.com/czg1225/DMax
- Abstract(参考訳): DMaxは、効率的な拡散言語モデル(dLLM)のための新しいパラダイムである。
並列デコーディングにおけるエラーの蓄積を軽減し、生成品質を維持しながらアグレッシブな並列化を可能にする。
従来のマスク付きdLLMとは異なり、DMaxはデコーディングをマスクの埋め込みからトークンの埋め込みへの進歩的な自己複製として再構成する。
我々のアプローチの核心は、マスクされたdLLMと均一なdLLMを効率的に統一する新しいトレーニング戦略であるOn-Policy Uniform Trainingである。
この基盤の上に構築されたソフトパラレルデコーディングをさらに提案する。
我々は,各中間復号状態を予測トークンの埋め込みとマスクの埋め込みの補間として表現し,埋め込み空間における反復的自己修正を可能にする。
様々なベンチマークにわたる大規模な実験は、DMaxの有効性を実証している。
従来のLLaDA-2.0-miniと比較して,GSM8K上のTPFは精度を保ちながら2.04から5.47に改善した。
MBPPではTPFを2.71から5.86に増加させ、同等の性能を維持している。
2つのH200 GPU上では,バッチサイズ1で平均1,338 TPSを達成した。
コードは、https://github.com/czg1225/DMaxで入手できる。
関連論文リスト
- Divide and Conquer: Accelerating Diffusion-Based Large Language Models via Adaptive Parallel Decoding [6.755667885643806]
拡散に基づく大規模言語モデル(dLLM)は、様々な推論タスクで有望なパフォーマンスを示している。
適応型並列復号法であるDiCoを導入し,三相分割コンカレントパラダイムを特徴とする。
大規模な実験により、DiCoは競争力のある生成品質を維持しながら、大きな推論スピードアップを達成できることが示された。
論文 参考訳(メタデータ) (2026-02-27T08:36:06Z) - Stop Training for the Worst: Progressive Unmasking Accelerates Masked Diffusion Training [21.78753228511593]
Masked Diffusion Models (MDMs) は離散空間における生成モデリングのための有望なアプローチとして登場した。
MDMは指数関数的に大きなマスキングパターンのセットでトレーニングする。
本稿では,プログレッシブ・アンマスキング(PUMA)を提案する。プログレッシブ・アンマスキング(PUMA)は,トレーニング時間と推論時間のマスキングパターンを調整したフォワード・マスキングプロセスの簡単な修正である。
論文 参考訳(メタデータ) (2026-02-10T21:42:50Z) - Residual Context Diffusion Language Models [90.07635240595926]
Residual Context Diffusion (RCD) は、捨てられたトークン表現をコンテキスト残留に変換し、次のデノイングステップでそれらを注入するモジュールである。
RCDは、最小限の計算オーバーヘッドで、5-10ポイントの精度でフロンティアdLLMを一貫して改善する。
論文 参考訳(メタデータ) (2026-01-30T13:16:32Z) - dParallel: Learnable Parallel Decoding for dLLMs [77.24184219948337]
拡散大言語モデル(dLLM)は並列トークン予測と低推論遅延を提供する。
既存のオープンソースモデルは、パフォーマンスを確保するためにトークン長のデコードステップをほとんど必要としています。
高速サンプリングのためにdLLMs固有の並列性を解き放つシンプルで効果的な方法であるdParallelを導入する。
論文 参考訳(メタデータ) (2025-09-30T16:32:52Z) - Sequential Diffusion Language Models [110.06562906987052]
拡散言語モデル(DLM)は理論効率が強いが、固定長の復号化とキー値キャッシュとの非互換性によって制限される。
次点と次点の予測を統一するNext Sequence Prediction (NSP)を導入する。
本稿では,事前学習した自己回帰言語モデル(ALM)を最小限のコストで再現可能な逐次拡散言語モデル(SDLM)を提案する。
論文 参考訳(メタデータ) (2025-09-28T17:59:15Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [60.407727995313074]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。