論文の概要: Self Speculative Decoding for Diffusion Large Language Models
- arxiv url: http://arxiv.org/abs/2510.04147v1
- Date: Sun, 05 Oct 2025 10:52:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.491972
- Title: Self Speculative Decoding for Diffusion Large Language Models
- Title(参考訳): 拡散大言語モデルのための自己投機的復号法
- Authors: Yifeng Gao, Ziang Ji, Yuxuan Wang, Biqing Qi, Hanlin Xu, Linfeng Zhang,
- Abstract要約: 拡散に基づく大規模言語モデル (dLLMs) は自己回帰モデルに代わる競合モデルとして登場した。
textbfSelf textbfSpeculative textbfDecoding (SSD) を提案する。
SSDは最大3.46$times$ Speedupを実現し、出力はLLaDAやDreamのようなオープンソースのモデルで段階的に復号化される。
- 参考スコア(独自算出の注目度): 21.955478721386953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based Large Language Models (dLLMs) have emerged as a competitive alternative to autoregressive models, offering unique advantages through bidirectional attention and parallel generation paradigms. However, the generation results of current parallel decoding methods deviate from stepwise decoding, introducing potential performance degradation, which limits their practical deployment. To address this problem, we propose \textbf{S}elf \textbf{S}peculative \textbf{D}ecoding (SSD), a lossless inference acceleration method that leverages the dLLM itself as both speculative decoding drafter and verifier without auxiliary modules. SSD introduces a self-drafting mechanism where the model generates predictions for multiple positions, then verifies them through hierarchical verification trees in a single forward pass. Unlike traditional speculative decoding that requires separate draft models, SSD eliminates model redundancy and memory overhead by exploiting the dLLM's inherent parallel prediction capability for multiple positions. This self-speculative approach allows the model to progressively verify and accept multiple tokens in a single forward pass. Our experiments demonstrate that SSD achieves up to 3.46$\times$ speedup while keeping the output identical to stepwise decoding on open source models such as LLaDA and Dream. Code will be made publicly available on GitHub.
- Abstract(参考訳): 拡散に基づく大規模言語モデル (dLLMs) は自動回帰モデルの競合として登場し、双方向の注意と並列生成パラダイムを通じてユニークな利点を提供する。
しかし、現在の並列復号法の生成結果は、段階的な復号化から逸脱し、潜在的な性能劣化を導入し、実際の展開を制限している。
この問題に対処するために,dLLM自体を補助モジュールのない投機的復号化と検証の両方として活用する,損失のない推論加速法である,‘textbf{S}elf \textbf{S}peculative \textbf{D}ecoding(SSD)’を提案する。
SSDは、モデルが複数の位置の予測を生成し、階層的な検証木を1つの前方通過で検証する自己描画機構を導入している。
別々のドラフトモデルを必要とする従来の投機的復号法とは異なり、SSDは複数の位置に対するdLLM固有の並列予測機能を活用することにより、モデルの冗長性とメモリオーバーヘッドを排除している。
この自己投機的アプローチにより、モデルは1つのフォワードパスで複数のトークンを段階的に検証し、受け入れることができる。
実験の結果,SSDは最大3.46$\times$スピードアップを達成でき,出力はLLaDAやDreamなどのオープンソースモデルで段階的に復号化される。
コードはGitHubで公開されている。
関連論文リスト
- Sequential Diffusion Language Models [110.06562906987052]
拡散言語モデル(DLM)は理論効率が強いが、固定長の復号化とキー値キャッシュとの非互換性によって制限される。
次点と次点の予測を統一するNext Sequence Prediction (NSP)を導入する。
本稿では,事前学習した自己回帰言語モデル(ALM)を最小限のコストで再現可能な逐次拡散言語モデル(SDLM)を提案する。
論文 参考訳(メタデータ) (2025-09-28T17:59:15Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [50.9948753314669]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z) - Speculative Decoding via Hybrid Drafting and Rollback-Aware Branch Parallelism [20.3565068078231]
仮説復号における分岐並列性を解き放つための新しいフレームワーク textbfSpecBranch を提案する。
SpecBranchがtextbf1.8$times sim$ textbf4.5$times$ speedups against the auto-regressive decoding and reduces rollback tokens by $textbf50$% for aligned model。
論文 参考訳(メタデータ) (2025-05-16T07:45:05Z) - Reviving Any-Subset Autoregressive Models with Principled Parallel Sampling and Speculative Decoding [55.2480439325792]
任意の順序言語モデルでは、正しい関節分布からトークンを並列にサンプリングする方法がオープンな問題である。
我々は,任意のサブセット自動回帰モデル (AS-ARM) という,異なるモデルのクラスが解を持っていることを発見した。
我々は,AS-ARMがベンチマークタスクを埋め込んだ200M未満のパラメータモデル間で最先端の性能を実現し,コード生成における50倍のモデルの性能とほぼ一致していることを示す。
論文 参考訳(メタデータ) (2025-04-29T06:33:13Z) - AMUSD: Asynchronous Multi-Device Speculative Decoding for LLM Acceleration [0.3626013617212667]
本稿では,AMUSD (Asynchronous Multi-device Speculative Decoding) を導入し,ドラフトを分離し,フェーズを検証することによって生成を高速化するシステムを提案する。
AMUSDは、1つのモデル(ドラフトまたは検証)のみが一度にトークン生成を行う従来の投機復号法とは異なり、どちらのモデルも別々のデバイス上で独立して予測を行うことができる。
我々は、複数のデータセットに対するアプローチを評価し、AMUSDが投機的復号化よりも平均29%改善し、従来の自己回帰復号化よりも1.96$times$スピードアップを達成したことを示す。
論文 参考訳(メタデータ) (2024-10-22T19:15:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。