論文の概要: d3LLM: Ultra-Fast Diffusion LLM using Pseudo-Trajectory Distillation
- arxiv url: http://arxiv.org/abs/2601.07568v1
- Date: Mon, 12 Jan 2026 14:25:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.431253
- Title: d3LLM: Ultra-Fast Diffusion LLM using Pseudo-Trajectory Distillation
- Title(参考訳): d3LLM:擬軌道蒸留を用いた超低拡散LDM
- Authors: Yu-Yang Qian, Junda Su, Lanxiang Hu, Peiyuan Zhang, Zhijie Deng, Peng Zhao, Hao Zhang,
- Abstract要約: 拡散大言語モデル (dLLM) は自己回帰 (AR) LLM 以上の機能を提供する。
現行の手法では、通常はコインの片面のみに焦点を合わせ、効率性や性能を目標としている。
本稿では,d3LLM (Pseudo-Distilled Diffusion Large Language Model) を提案する。
- 参考スコア(独自算出の注目度): 31.922313594074925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion large language models (dLLMs) offer capabilities beyond those of autoregressive (AR) LLMs, such as parallel decoding and random-order generation. However, realizing these benefits in practice is non-trivial, as dLLMs inherently face an accuracy-parallelism trade-off. Despite increasing interest, existing methods typically focus on only one-side of the coin, targeting either efficiency or performance. To address this limitation, we propose d3LLM (Pseudo-Distilled Diffusion Large Language Model), striking a balance between accuracy and parallelism: (i) during training, we introduce pseudo-trajectory distillation to teach the model which tokens can be decoded confidently at early steps, thereby improving parallelism; (ii) during inference, we employ entropy-based multi-block decoding with a KV-cache refresh mechanism to achieve high parallelism while maintaining accuracy. To better evaluate dLLMs, we also introduce AUP (Accuracy Under Parallelism), a new metric that jointly measures accuracy and parallelism. Experiments demonstrate that our d3LLM achieves up to 10$\times$ speedup over vanilla LLaDA/Dream and 5$\times$ speedup over AR models without much accuracy drop. Our code is available at https://github.com/hao-ai-lab/d3LLM.
- Abstract(参考訳): 拡散大言語モデル(dLLM)は、並列復号化や乱数順序生成など、自己回帰(AR)LLM以上の機能を提供する。
しかし、dLLMsは本質的には精度パラレルなトレードオフに直面しているため、実際にこれらの利点を実現することは簡単ではない。
関心が高まりつつあるにもかかわらず、既存の手法は一般的にコインの片側だけに焦点を合わせ、効率と性能の両方をターゲットにしている。
この制限に対処するため、我々はd3LLM (Pseudo-Distilled Diffusion Large Language Model)を提案する。
(i) 訓練中に擬似軌道蒸留を導入し, 早期段階においてトークンを確実に復号化できることをモデルに教え, 並列性を向上させる。
(II) 推論において, 精度を維持しつつ高い並列性を実現するために, KV-cacheリフレッシュ機構を備えたエントロピーベースのマルチブロックデコーディングを用いる。
また, DLLM の精度向上のために, AUP (Accuracy Under Parallelism) を導入している。
実験によると、我々のd3LLMは、バニラLLaDA/Dreamよりも最大10$\times$スピードアップ、ARモデルよりも5$\times$スピードアップを精度低下なく達成している。
私たちのコードはhttps://github.com/hao-ai-lab/d3LLM.comで利用可能です。
関連論文リスト
- Fast and Accurate Causal Parallel Decoding using Jacobi Forcing [41.89066334075016]
Jacobi Forcingはプログレッシブ蒸留パラダイムであり、モデルが独自の並列復号軌道で訓練される。
我々は,複数ブロックの復号化とリジェクション・リサイクリングを導入し,最大4.5倍高いトークン受入数と4.0倍のウォールクロック・スピードアップを実現した。
論文 参考訳(メタデータ) (2025-12-16T18:45:18Z) - dParallel: Learnable Parallel Decoding for dLLMs [77.24184219948337]
拡散大言語モデル(dLLM)は並列トークン予測と低推論遅延を提供する。
既存のオープンソースモデルは、パフォーマンスを確保するためにトークン長のデコードステップをほとんど必要としています。
高速サンプリングのためにdLLMs固有の並列性を解き放つシンプルで効果的な方法であるdParallelを導入する。
論文 参考訳(メタデータ) (2025-09-30T16:32:52Z) - Fast-dLLM v2: Efficient Block-Diffusion LLM [64.38006546510337]
Fast-dLLM v2はブロック拡散言語モデルで、訓練済みのARモデルをdLLMに適応して並列テキストを生成する。
これは、Dream(580Bトークン)のようなフルアテンション拡散LDMと比較して、トレーニングデータの500倍の減少を示す。
論文 参考訳(メタデータ) (2025-09-30T14:40:18Z) - Diffusion LLMs Can Do Faster-Than-AR Inference via Discrete Diffusion Forcing [14.22753953706955]
Diffusion Large Language Models (dLLMs) は、テキスト生成のための自動回帰(AR) LLM に代わる有望な代替品として登場した。
本稿では、離散拡散強制(D2F)と呼ばれる単純かつ効果的な戦略に基づいて、この障壁を破る。
このようにして、バニラdLLMは効率的な推論のためにAR拡散ハイブリッドパラダイムに再構成される。
論文 参考訳(メタデータ) (2025-08-08T04:51:37Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [60.407727995313074]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - Large Language Diffusion Models [93.26422905620008]
大規模言語モデル(LLM)は自己回帰モデル(ARM)に依存していると考えられている。
我々は,事前学習および教師付き微調整パラダイムの下で,ゼロから学習した拡散モデルであるLLaDAを紹介する。
一般的なタスクや数学、コードなどに関する広範なベンチマークを通じて、LLaDAは強力なスケーラビリティを示し、自己構築されたARMベースラインと互換性のあるパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-02-14T08:23:51Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。