論文の概要: ES-dLLM: Efficient Inference for Diffusion Large Language Models by Early-Skipping
- arxiv url: http://arxiv.org/abs/2603.10088v1
- Date: Tue, 10 Mar 2026 14:31:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.627012
- Title: ES-dLLM: Efficient Inference for Diffusion Large Language Models by Early-Skipping
- Title(参考訳): ES-dLLM:早期スキッピングによる拡散大言語モデルの効率的な推論
- Authors: Zijian Zhu, Fei Ren, Zhanhong Tan, Kaisheng Ma,
- Abstract要約: 拡散大言語モデル(dLLMs)は、自己回帰モデル(ARMs)に代わる有望な選択肢として浮上している。
我々は、dLLMの生成ダイナミクスを分析し、キー、値、隠された状態を含む中間表現が連続するイテレーション間でのみ微妙に変化することを発見した。
我々は,dLLMのトレーニング不要な推論高速化フレームワークである textbfES-dLLM を提案する。
- 参考スコア(独自算出の注目度): 26.560813832545563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion large language models (dLLMs) are emerging as a promising alternative to autoregressive models (ARMs) due to their ability to capture bidirectional context and the potential for parallel generation. Despite the advantages, dLLM inference remains computationally expensive as the full input context is processed at every iteration. In this work, we analyze the generation dynamics of dLLMs and find that intermediate representations, including key, value, and hidden states, change only subtly across successive iterations. Leveraging this insight, we propose \textbf{ES-dLLM}, a training-free inference acceleration framework for dLLM that reduces computation by skipping tokens in early layers based on the estimated importance. Token importance is computed with intermediate tensor variation and confidence scores of previous iterations. Experiments on LLaDA-8B and Dream-7B demonstrate that ES-dLLM achieves throughput of up to 226.57 and 308.51 tokens per second (TPS), respectively, on an NVIDIA H200 GPU, delivering 5.6$\times$ to 16.8$\times$ speedup over the vanilla implementation and up to 1.85$\times$ over the state-of-the-art caching method, while preserving generation quality.
- Abstract(参考訳): 拡散大言語モデル(dLLM)は、双方向コンテキストのキャプチャと並列生成の可能性のため、自動回帰モデル(ARM)に代わる有望な選択肢として浮上している。
利点はあるものの、完全な入力コンテキストが反復ごとに処理されるため、dLLM推論は計算コストがかかる。
本研究では、dLLMの生成ダイナミクスを分析し、キー、値、隠蔽状態を含む中間表現が連続するイテレーション間でのみ微妙に変化することを示す。
この知見を生かして,dLLM のトレーニング不要推論促進フレームワークである \textbf{ES-dLLM} を提案する。
トークン重要度は、前のイテレーションの中間テンソル変動と信頼スコアで計算される。
LLaDA-8BとDream-7Bの実験では、ES-dLLMは最大226.57トークンと308.51トークン/秒(TPS)のスループットを実現し、NVIDIA H200 GPU上で5.6$\times$から16.8$\times$バニラ実装のスピードアップと1.85$\times$を生成品質を維持しながら実現している。
関連論文リスト
- Balancing Understanding and Generation in Discrete Diffusion Models [58.62235340638143]
Masked Diffusion Language Models (MDLM) は意味理解とゼロショットの一般化に優れる。
UDLM(Uniform-Noise Diffusion Language Models)は、強力な数ステップ生成品質を実現する。
定常雑音カーネルを介して2つのパラダイムをブリッジするXDLMを提案する。
論文 参考訳(メタデータ) (2026-02-01T18:00:35Z) - Residual Context Diffusion Language Models [90.07635240595926]
Residual Context Diffusion (RCD) は、捨てられたトークン表現をコンテキスト残留に変換し、次のデノイングステップでそれらを注入するモジュールである。
RCDは、最小限の計算オーバーヘッドで、5-10ポイントの精度でフロンティアdLLMを一貫して改善する。
論文 参考訳(メタデータ) (2026-01-30T13:16:32Z) - Diffusion LLM with Native Variable Generation Lengths: Let [EOS] Lead the Way [23.877854550033224]
拡散に基づく大規模言語モデル (dLLMs) は、並列テキスト生成にかなりの可能性を秘めている。
現在のdLLMは、デコード前にdLLMの生成長を決定する必要があることを示す固定生成長に悩まされている。
本稿では,dLLM-Var と略して,固有変数生成長を持つ拡散 LLM の学習を提案する。
論文 参考訳(メタデータ) (2025-10-28T16:32:43Z) - dInfer: An Efficient Inference Framework for Diffusion Language Models [54.80918957287927]
拡散に基づく大規模言語モデル (dLLM) は自己回帰(AR) LLM に代わる有望な代替品として登場した。
本稿では、dLLM推論のための効率的かつ効率的なフレームワークであるdInferについて述べる。
論文 参考訳(メタデータ) (2025-10-09T16:19:42Z) - dParallel: Learnable Parallel Decoding for dLLMs [77.24184219948337]
拡散大言語モデル(dLLM)は並列トークン予測と低推論遅延を提供する。
既存のオープンソースモデルは、パフォーマンスを確保するためにトークン長のデコードステップをほとんど必要としています。
高速サンプリングのためにdLLMs固有の並列性を解き放つシンプルで効果的な方法であるdParallelを導入する。
論文 参考訳(メタデータ) (2025-09-30T16:32:52Z) - dLLM-Cache: Accelerating Diffusion Large Language Models with Adaptive Caching [27.114862565164145]
拡散に基づく大規模言語モデルは、反復的にマスキングされたセグメントによってテキストを生成する。
dLLMは高い推論遅延に悩まされる。
従来のARMアクセラレーション技術は、dLLMと互換性がない。
トレーニング不要な適応型キャッシュフレームワークであるdLLM-Cacheを提案する。
論文 参考訳(メタデータ) (2025-05-17T15:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。