論文の概要: CD4LM: Consistency Distillation and aDaptive Decoding for Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2601.02236v1
- Date: Mon, 05 Jan 2026 16:09:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.261478
- Title: CD4LM: Consistency Distillation and aDaptive Decoding for Diffusion Language Models
- Title(参考訳): CD4LM:拡散言語モデルの一貫性拡張と適応デコーディング
- Authors: Yihao Liang, Ze Wang, Hao Chen, Ximeng Sun, Jialian Wu, Xiaodong Yu, Jiang Liu, Emad Barsoum, Zicheng Liu, Niraj K. Jha,
- Abstract要約: CD4LMは、推論からトレーニングを分離するフレームワークである。
GSM8Kでは、CD4LMはLLaDAベースラインと5.18倍のウォールクロック速度でマッチする。
- 参考スコア(独自算出の注目度): 27.070045950001532
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive large language models achieve strong results on many benchmarks, but decoding remains fundamentally latency-limited by sequential dependence on previously generated tokens. Diffusion language models (DLMs) promise parallel generation but suffer from a fundamental static-to-dynamic misalignment: Training optimizes local transitions under fixed schedules, whereas efficient inference requires adaptive "long-jump" refinements through unseen states. Our goal is to enable highly parallel decoding for DLMs with low number of function evaluations while preserving generation quality. To achieve this, we propose CD4LM, a framework that decouples training from inference via Discrete-Space Consistency Distillation (DSCD) and Confidence-Adaptive Decoding (CAD). Unlike standard objectives, DSCD trains a student to be trajectory-invariant, mapping diverse noisy states directly to the clean distribution. This intrinsic robustness enables CAD to dynamically allocate compute resources based on token confidence, aggressively skipping steps without the quality collapse typical of heuristic acceleration. On GSM8K, CD4LM matches the LLaDA baseline with a 5.18x wall-clock speedup; across code and math benchmarks, it strictly dominates the accuracy-efficiency Pareto frontier, achieving a 3.62x mean speedup while improving average accuracy. Code is available at https://github.com/yihao-liang/CDLM
- Abstract(参考訳): 自己回帰的な大規模言語モデルは、多くのベンチマークで強力な結果を得るが、復号化は、以前に生成されたトークンへのシーケンシャルな依存によって、基本的に遅延に制限される。
ディフュージョン言語モデル(DLM)は並列生成を約束するが、基本的な静的-動的ミスアライメントに悩まされる: トレーニングは固定されたスケジュールの下で局所遷移を最適化する。
我々のゴールは、生成品質を保ちながら、関数評価の少ないDLMの高並列デコーディングを可能にすることである。
そこで本研究では,CDCD(Disdisrete-Space Consistency Distillation)とCAD(Confidence-Adaptive Decoding)を通じて,推論からトレーニングを分離するCD4LMを提案する。
通常の目的とは異なり、DSCDは学生に軌跡不変性を訓練し、多様なノイズ状態を直接クリーンな分布にマッピングする。
この本質的な堅牢性によりCADはトークン信頼度に基づいて動的に計算資源を割り当てることができ、ヒューリスティック加速の典型的な品質崩壊なしに積極的にステップをスキップすることができる。
GSM8Kでは、CD4LMはLLaDAのベースラインを5.18倍のウォールクロックのスピードアップとマッチングし、コードと数学のベンチマークでパレートフロンティアの精度を厳密に上回り、平均精度を3.62倍に向上させる。
コードはhttps://github.com/yihao-liang/CDLMで公開されている。
関連論文リスト
- WeDLM: Reconciling Diffusion Language Models with Standard Causal Attention for Fast Inference [44.87788417755154]
本稿では,標準因果注意に基づく拡散復号化フレームワークWeDLMを提案する。
WeDLMは強力なARバックボーンの品質を維持しつつ,大幅な高速化を実現している。
論文 参考訳(メタデータ) (2025-12-28T01:25:48Z) - CDLM: Consistency Diffusion Language Models For Faster Sampling [54.886467592798]
拡散言語モデル(DLM)は有望な並列生成パラダイムを提供するが、推論が遅い。
本稿では,両方のボトルネックに同時に対処するトレーニングベースの加速度法CDLMを紹介する。
実験では、CDLMは3.6x-14.5倍のレイテンシを実現し、数学やコーディングタスクの競合精度を維持している。
論文 参考訳(メタデータ) (2025-11-24T16:21:25Z) - Saber: An Efficient Sampling with Adaptive Acceleration and Backtracking Enhanced Remasking for Diffusion Language Model [98.35868970993232]
拡散言語モデル(DLM)は、支配的な自己回帰パラダイムに代わる強力で有望な選択肢として現れています。
コード生成における推論速度と出力品質の向上を実現するために,適応加速度を用いた効率的なサンプリングとバックトラック強化リマッシング(セイバー)を導入する。
論文 参考訳(メタデータ) (2025-10-20T23:38:12Z) - CreditDecoding: Accelerating Parallel Decoding in Diffusion Large Language Models with Trace Credits [37.06886078519443]
CreditDecodingはトレーニング不要の並列デコーディングアルゴリズムで、正確だが不確実なトークンの信頼収束を加速する。
8つのベンチマークでは、CreditDecodingはLLaDA-8B-Instructよりも5.48倍の高速化と0.48のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-10-07T17:08:33Z) - Wide-In, Narrow-Out: Revokable Decoding for Efficient and Effective DLLMs [57.69190972274813]
Diffusion Large Language Models (DLLM) は、自動回帰モデルの魅力的な代替品として登場した。
既存のDLLMは、高速な並列復号化によって性能が著しく低下する、厳しい品質と速度のトレードオフに悩まされている。
本稿では,DLLMの復号化を可能にするトレーニング不要復号アルゴリズムであるWide-In, Narrow-Out (WINO)を紹介する。
論文 参考訳(メタデータ) (2025-07-24T16:51:33Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。