論文の概要: S2D2: Fast Decoding for Diffusion LLMs via Training-Free Self-Speculation
- arxiv url: http://arxiv.org/abs/2603.25702v1
- Date: Thu, 26 Mar 2026 17:48:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.411012
- Title: S2D2: Fast Decoding for Diffusion LLMs via Training-Free Self-Speculation
- Title(参考訳): S2D2:学習自由自己分析による拡散LDMの高速復号化
- Authors: Ligong Han, Hao Wang, Han Gao, Kai Xu, Akash Srivastava,
- Abstract要約: ブロック拡散言語モデルはブロックワイド自己回帰復号とブロック内並列復号を結合する。
この問題に対処する既存のアプローチでは、追加のトレーニングが必要か、追加のテストタイム計算が必要になります。
ブロック拡散言語モデルのための訓練不要な自己投機的デコーディングフレームワークであるS2D2を提案する。
- 参考スコア(独自算出の注目度): 22.303253139413286
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Block-diffusion language models offer a promising path toward faster-than-autoregressive generation by combining block-wise autoregressive decoding with within-block parallel denoising. However, in the few-step regime needed for practical acceleration, standard confidence-thresholded decoding is often brittle: aggressive thresholds hurt quality, while conservative thresholds require unnecessary denoising steps. Existing approaches that address this issue either require additional training or incur extra test-time compute. We present S2D2, a training-free self-speculative decoding framework for block-diffusion language models. Our key observation is that a block-diffusion model becomes autoregressive when the block size is reduced to one, allowing the same pretrained model to act as both drafter and verifier. S2D2 inserts a speculative verification step into standard block-diffusion decoding and uses lightweight routing policies to decide when verification is worth its cost. This yields a hybrid decoding trajectory in which diffusion proposes tokens in parallel, while the autoregressive mode acts as a local sequence-level critic. Across three mainstream block-diffusion families, S2D2 consistently improves the accuracy-speed tradeoff over strong confidence-thresholding baselines. On SDAR, we observe up to $4.7\times$ speedup over autoregressive decoding, and up to $1.57\times$ over a tuned dynamic decoding baseline while improving accuracy by up to $4.5$ points. On LLaDA2.1-Mini, S2D2 remains complementary to built-in self-correction, including a conservative setting where it is $4.4\times$ faster than the static baseline with slightly higher accuracy.
- Abstract(参考訳): ブロック拡散言語モデルは、ブロックワイドの自己回帰復号とブロック内並列復号化を組み合わせることで、高速な自己回帰生成への有望な道を提供する。
しかし、現実的な加速に必要な数段階の体制では、標準的な信頼を保った復号法はしばしば不安定であり、攻撃的なしきい値が品質を損なう一方、保守的なしきい値には不要な復号法を必要とする。
この問題に対処する既存のアプローチでは、追加のトレーニングが必要か、追加のテストタイム計算が必要になります。
ブロック拡散言語モデルのための訓練不要な自己投機的デコーディングフレームワークであるS2D2を提案する。
我々のキーとなる観察は、ブロックサイズを1に減らすとブロック拡散モデルが自己回帰的になり、同じ事前学習モデルがドラフトと検証の両方として機能することである。
S2D2は、標準的なブロック拡散復号法に投機的な検証ステップを挿入し、検証に価値があるかどうかを判断するために軽量なルーティングポリシーを使用する。
これにより、拡散がトークンを並列に提案するハイブリッドデコード軌道が得られ、一方自己回帰モードは局所的なシーケンスレベルの批判として機能する。
3つの主要なブロック拡散系の中で、S2D2は強い信頼を保ったベースラインに対する精度と速度のトレードオフを一貫して改善する。
SDARでは、オートレグレッシブデコーディングよりも最大4.7\times$のスピードアップと、チューニングされた動的デコーディングベースラインよりも最大1.57\times$のスピードアップを観察し、精度を最大4.5$ポイント向上させる。
LLaDA2.1-Miniでは、S2D2は内蔵の自己補正と相補的であり、保存的な設定では4.4\times$が静的ベースラインよりも若干高い精度で高速である。
関連論文リスト
- SpecDiff-2: Scaling Diffusion Drafter Alignment For Faster Speculative Decoding [48.96349422252313]
投機的復号化は,Large Language Model (LLM)推論の高速化のための標準手法となっている。
自動回帰デコーディングの遅延を回避し、印象的なスピードアップを実現するために、損失のないドラフト検証手順を利用する。
本稿では,これら2つのボトルネックに共同で対処する新しいフレームワークであるSpecDiff-2を提案する。
論文 参考訳(メタデータ) (2025-11-01T16:12:56Z) - Saber: An Efficient Sampling with Adaptive Acceleration and Backtracking Enhanced Remasking for Diffusion Language Model [98.35868970993232]
拡散言語モデル(DLM)は、支配的な自己回帰パラダイムに代わる強力で有望な選択肢として現れています。
コード生成における推論速度と出力品質の向上を実現するために,適応加速度を用いた効率的なサンプリングとバックトラック強化リマッシング(セイバー)を導入する。
論文 参考訳(メタデータ) (2025-10-20T23:38:12Z) - AdaBlock-dLLM: Semantic-Aware Diffusion LLM Inference via Adaptive Block Size [7.442463267121892]
拡散に基づく大規模言語モデル (dLLM) は並列デコードに固有の能力で注目を集めている。
本稿では,セミARデコードにおける固定ブロックサイズの仮定に挑戦する最初の体系的な研究を提案する。
AdaBlock-dLLMは,実行中のブロックサイズを調整することで,ブロック境界とセマンティックステップを適応的に調整する,トレーニング不要のプラグイン・アンド・プレイスケジューラである。
論文 参考訳(メタデータ) (2025-09-30T15:53:56Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z) - FlashDLM: Accelerating Diffusion Language Model Inference via Efficient KV Caching and Guided Diffusion [22.207275433870937]
拡散言語モデルは並列トークン生成と本質的に双方向性を提供する。
最先端拡散モデル(ドリーム7B、LLaDA 8Bなど)は推論が遅い。
我々は,トークンアンマキングを監督するために,軽量な事前学習型自己回帰モデルを用いた学習自由度法であるガイドド拡散を導入する。
論文 参考訳(メタデータ) (2025-05-27T17:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。