論文の概要: Locally Coherent Parallel Decoding in Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2603.20216v1
- Date: Tue, 03 Mar 2026 09:56:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.897575
- Title: Locally Coherent Parallel Decoding in Diffusion Language Models
- Title(参考訳): 拡散言語モデルにおける局所コヒーレント並列デコーディング
- Authors: Michael Hersche, Nicolas Menet, Ronan Tanios, Abbas Rahimi,
- Abstract要約: 拡散言語モデル(DLM)は、線形生成遅延と双方向機能を提供する。
標準DLMは条件付き境界分布とは独立してトークンをサンプリングする。
並列サンプリングを局所的依存モデルと照合する手法であるCoDiLAを紹介する。
- 参考スコア(独自算出の注目度): 6.620088179445404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion language models (DLMs) have emerged as a promising alternative to autoregressive (AR) models, offering sub-linear generation latency and bidirectional capabilities that are particularly appealing for code generation and editing. Achieving sub-linear latency in discrete DLMs requires predicting multiple tokens in parallel. However, standard DLMs sample tokens independently from conditional marginal distributions, failing to capture the joint dependencies among concurrently generated tokens. As a result, they often lead to syntactic inconsistencies and break multi-token structures. In this work, we introduce CoDiLA (Coherent Diffusion with Local Autoregression), a method that reconciles parallel sampling with local dependency modeling. Rather than forcing the DLM to resolve fine-grained syntax, CoDiLA delegates local decoding to a small, auxiliary AR model operating on the diffusion latents. This design allows for parallel block generation while ensuring sequential validity within each block and maintaining core DLM capabilities, including bidirectional modeling across blocks. We demonstrate that using a highly compact auxiliary AR model (e.g., 0.6B parameters) effectively eliminates coherence artifacts, establishing a new Pareto frontier for accuracy and speed in code generation benchmarks.
- Abstract(参考訳): 拡散言語モデル(DLMs)は、自動回帰(AR)モデルの有望な代替として登場し、特にコード生成や編集に魅力的なサブ線形生成遅延と双方向機能を提供する。
離散DLMでサブ線形レイテンシを実現するには、複数のトークンを並列に予測する必要がある。
しかし、標準のDLMは条件付き辺縁分布とは独立してトークンをサンプリングし、同時に生成されたトークン間の共同依存関係をキャプチャできなかった。
結果として、それらはしばしば構文上の矛盾を招き、マルチトークン構造を壊す。
本研究では,並列サンプリングと局所依存性モデリングを併用したCoDiLA(Coherent Diffusion with Local Autoregression)を提案する。
CoDiLAはDLMに微細な構文の解決を強制するのではなく、局所的なデコーディングを拡散潜水器で動作する小さな補助的なARモデルに委譲する。
この設計により、ブロック間の双方向モデリングを含むコアDLM機能を維持しながら、各ブロック内のシーケンシャルな妥当性を確保しながら、並列ブロック生成が可能となる。
我々は,高度にコンパクトな補助ARモデル(例えば0.6Bパラメータ)を使用することで,コヒーレンスアーチファクトを効果的に排除し,コード生成ベンチマークの精度と高速化のための新しいParetoフロンティアを確立することを実証した。
関連論文リスト
- CDLM: Consistency Diffusion Language Models For Faster Sampling [54.886467592798]
拡散言語モデル(DLM)は有望な並列生成パラダイムを提供するが、推論が遅い。
本稿では,両方のボトルネックに同時に対処するトレーニングベースの加速度法CDLMを紹介する。
実験では、CDLMは3.6x-14.5倍のレイテンシを実現し、数学やコーディングタスクの競合精度を維持している。
論文 参考訳(メタデータ) (2025-11-24T16:21:25Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [60.407727995313074]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。