論文の概要: CDLM: Consistency Diffusion Language Models For Faster Sampling
- arxiv url: http://arxiv.org/abs/2511.19269v1
- Date: Mon, 24 Nov 2025 16:21:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.309699
- Title: CDLM: Consistency Diffusion Language Models For Faster Sampling
- Title(参考訳): CDLM: 高速サンプリングのための一貫性拡散言語モデル
- Authors: Minseo Kim, Chenfeng Xu, Coleman Hooper, Harman Singh, Ben Athiwaratkun, Ce Zhang, Kurt Keutzer, Amir Gholami,
- Abstract要約: 拡散言語モデル(DLM)は有望な並列生成パラダイムを提供するが、推論が遅い。
本稿では,両方のボトルネックに同時に対処するトレーニングベースの加速度法CDLMを紹介する。
実験では、CDLMは3.6x-14.5倍のレイテンシを実現し、数学やコーディングタスクの競合精度を維持している。
- 参考スコア(独自算出の注目度): 54.886467592798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Language Models (DLMs) offer a promising parallel generation paradigm but suffer from slow inference due to numerous refinement steps and the inability to use standard KV caching. We introduce CDLM (Consistency Diffusion Language Models), a training-based acceleration method that simultaneously tackles both bottlenecks. CDLM integrates consistency modeling to drastically reduce the number of required sampling steps by enabling multi-token finalization. Furthermore, we enforce a block-wise causal attention mask during fine-tuning, making the model fully compatible with KV caching. Experiments show CDLM achieves 3.6x-14.5x lower latency while maintaining competitive accuracy on math and coding tasks. The full training and evaluation code is available at https://github.com/SqueezeAILab/CDLM.
- Abstract(参考訳): 拡散言語モデル(DLM)は、有望な並列生成パラダイムを提供するが、多くの改良ステップと標準KVキャッシュを使用することができないため、推論が遅い。
本稿では,両方のボトルネックに同時に対処するトレーニングベースのアクセラレーション手法であるCDLM(Consistency Diffusion Language Models)を紹介する。
CDLMは整合性モデリングを統合し、マルチトークンファイナライゼーションを有効にすることで、必要なサンプリングステップの数を劇的に削減する。
さらに、細調整中にブロックワイズな因果注意マスクを適用し、KVキャッシングと完全に互換性を持たせる。
実験では、CDLMは3.6x-14.5倍のレイテンシを実現し、数学やコーディングタスクの競合精度を維持している。
完全なトレーニングと評価のコードはhttps://github.com/SqueezeAILab/CDLMで公開されている。
関連論文リスト
- Accelerating Diffusion LLMs via Adaptive Parallel Decoding [60.407727995313074]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。