論文の概要: SimSD: Simple Speculative Decoding in Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2606.02544v1
- Date: Mon, 01 Jun 2026 17:46:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.54997
- Title: SimSD: Simple Speculative Decoding in Diffusion Language Models
- Title(参考訳): SimSD: 拡散言語モデルにおける単純な投機的デコーディング
- Authors: Junxia Cui, Haotian Ye, Runchu Tian, Hongcan Guo, Jinya Jiang, Haoru Li, Chaojie Ren, Yiming Huang, Kaijie Zhu, Zhongkai Yu, Kun Zhou, Jingbo Shang,
- Abstract要約: 拡散大言語モデル (dLLMs) は、並列またはブロックワイド復号による高速な推論を提供する。
彼らのマスク付き言語モデリングの定式化は、標準的なトークンレベルの投機的復号法とは相容れないままである。
我々は,dLLMに時間的に有効なトークンレベルのコンテキストを付与する,SimSDと呼ばれるdLLMの投機的復号アルゴリズムを提案する。
提案手法は,平均生成品質を維持しつつ,最大7.46倍高い復号スループットを実現する。
- 参考スコア(独自算出の注目度): 61.33773959352141
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion large language models (dLLMs) have recently emerged as a promising alternative to autoregressive (AR) LLMs, offering faster inference through parallel or blockwise decoding. However, their masked language modeling formulation remains incompatible with standard token-level speculative decoding, one of the most effective acceleration techniques for AR models. In AR decoding, the causal mask preserves temporally valid token-level contexts, enabling a target model to verify multiple drafted tokens in a single forward pass. In contrast, dLLMs rely on mask tokens and bidirectional attention, causing the effective context to change across denoising steps and preventing direct token-level speculative verification. To bridge this gap, we propose a simple but effective speculative decoding algorithm for diffusion language models, named SimSD, which mainly adopts a plug-and-play masking strategy that equips dLLMs with temporally valid token-level contexts for speculative decoding. Our method explicitly introduces reference tokens from draft-model predictions and designs an attention mask that regulates their interaction with current-step tokens, allowing dLLMs to compute valid logits for drafted tokens in a single forward pass. This restores the key verification ability provided by causal masking in AR models while preserving the parallel decoding advantages of dLLMs. The proposed method is training-free and can be flexibly integrated with other acceleration techniques such as KV cache and blockwise decoding. Experiments on SDAR-family dLLMs across four benchmarks show that our method achieves up to 7.46x higher decoding throughput while maintaining and even improving average generation quality.
- Abstract(参考訳): 拡散大言語モデル(dLLM)は、最近、自動回帰(AR)LLMの代替として、並列またはブロックワイド復号による高速な推論を提供する有望なものとして登場した。
しかし、それらのマスク付き言語モデリングの定式化は、ARモデルの最も効果的な加速技術の一つである標準的なトークンレベルの投機的復号法とは相容れないままである。
ARデコーディングでは、因果マスクは時間的に有効なトークンレベルのコンテキストを保持し、ターゲットモデルが単一のフォワードパスで複数のトークンを検証できるようにする。
対照的に、dLLMはマスクトークンと双方向の注意を頼りにしており、効果的なコンテキストがデノナイズステップによって変化し、直接トークンレベルの投機的検証が防止される。
このギャップを埋めるために,DLLMに時間的に有効なトークンレベルのコンテキストを付与するプラグイン・アンド・プレイマスキング戦略を主に採用したSimSDという,拡散言語モデルのための単純かつ効果的な投機的復号法を提案する。
提案手法は, ドラフトモデル予測からの参照トークンを明示的に導入し, 注目マスクを設計し, 現行のステップトークンとの相互作用を制御し, 単一前方通過におけるドラフトトークンの有効なロジットをdLLMが計算できるようにする。
これにより、ARモデルにおける因果マスキングによる鍵検証能力が復元され、dLLMの並列復号化の利点が保たれる。
提案手法はトレーニングフリーであり、KVキャッシュやブロックワイド復号法といった他の加速技術と柔軟に統合できる。
SDAR系dLLMを4つのベンチマークで実験した結果,平均生成品質を維持・改善しながら,最大7.46倍高い復号スループットが得られることがわかった。
関連論文リスト
- DOS: Dependency-Oriented Sampler for Masked Diffusion Language Models [2.3863052459868297]
本稿では、トークンの更新を世代毎に通知するために、トークン間の依存関係を活用する、トレーニング不要なデコード戦略を提案する。
経験的結果は、DOSはコード生成と数学的推論の両方において、常に優れた性能を達成していることを示している。
論文 参考訳(メタデータ) (2026-03-16T14:28:39Z) - DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention [2.7422645382944935]
そこで我々はDyLLMを提案する。DyLLMは正規トークンのみを選択的に計算することでデコーディングを高速化する学習自由推論フレームワークである。
DyLLMは様々な推論とコード生成ベンチマークで最大9.6倍のスループットを実現している。
論文 参考訳(メタデータ) (2026-03-09T07:02:01Z) - Residual Context Diffusion Language Models [90.07635240595926]
Residual Context Diffusion (RCD) は、捨てられたトークン表現をコンテキスト残留に変換し、次のデノイングステップでそれらを注入するモジュールである。
RCDは、最小限の計算オーバーヘッドで、5-10ポイントの精度でフロンティアdLLMを一貫して改善する。
論文 参考訳(メタデータ) (2026-01-30T13:16:32Z) - Finish First, Perfect Later: Test-Time Token-Level Cross-Validation for Diffusion Large Language Models [47.5976588836299]
拡散大言語モデル(dLLM)は、並列デコーディングの高速化や双方向コンテキストモデリングといった利点を提供する。
離散dLLMにおけるバニラデコーディング戦略は、重要な制限に悩まされる。トークンが受け入れられると、後続のステップで修正することはできない。
予測トークン間のクロスバリデーションを利用するトレーニングフリーなデコーディング戦略であるToleratorを提案する。
論文 参考訳(メタデータ) (2025-10-06T17:56:46Z) - Fast and Fluent Diffusion Language Models via Convolutional Decoding and Rejective Fine-tuning [23.58934174168992]
Autoregressive (AR)言語モデルでは、テキストを1つずつ生成することで、推論速度が制限される。
ハードセグメンテーションなしでデコードウインドウを狭める正規化法である畳み込み復号法(Conv)を提案する。
Rejecting Rule-based Fine-Tuning (R2FT)も導入しています。
論文 参考訳(メタデータ) (2025-09-18T17:48:21Z) - DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。
本研究は,それらの認知過程と強化学習手法について考察する。
我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文 参考訳(メタデータ) (2025-06-25T17:35:47Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [60.407727995313074]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。