論文の概要: DFlare: Scaling Up Draft Capacity for Block Diffusion Speculative Decoding
- arxiv url: http://arxiv.org/abs/2606.02091v2
- Date: Tue, 02 Jun 2026 02:18:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 18:57:50.553678
- Title: DFlare: Scaling Up Draft Capacity for Block Diffusion Speculative Decoding
- Title(参考訳): DFlare: ブロック拡散投機デコードのためのドラフトキャパシティのスケールアップ
- Authors: Jiebin Zhang, Zhenghan Yu, Song Liu, Eugene J. Yu, Zheng Li, Dawei Zhu, Jiangshan Duo, Weimin Xiong, Yifan Song, Guanghua Yu, Jianchen Zhu, Sujian Li,
- Abstract要約: ブロック拡散復号法 LLM は、ブロック内の全てのトークンを同時に予測することで、推論を加速する。
モデルネームは、DFlashの狭い条件付けのボトルネックを、軽量なレイヤワイド・フュージョン機構によって引き起こします。
モデルネームはQwen3-4Bでは平均ウォールクロックの速度が5.52倍、Qwen3-8Bでは5.46倍、GPT-OSS-20Bでは3.91倍に達する。
- 参考スコア(独自算出の注目度): 28.444967970328264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Block diffusion speculative decoding accelerates LLM inference by predicting all tokens within a block simultaneously for the target model to verify in parallel. Predicting an entire block at once requires a sufficiently capable draft model and effective utilization of the target model's internal knowledge. However, the state-of-the-art method DFlash constrains all draft layers to share a single fused representation derived from only a few target layers, limiting per-layer expressiveness and hindering further scaling of draft capacity. In this paper, we present \modelname, which flares out the narrow conditioning bottleneck of DFlash through a lightweight layer-wise fusion mechanism: each draft layer attends to its own learnable combination of a broad set of target layers at negligible overhead, simultaneously injecting richer target knowledge and providing every draft layer with a distinct input. This enhanced per-layer expressiveness enables scaling the draft model to deeper architectures with consistent gains. We further scale training data from 800K to 2.4M samples to fully exploit the enlarged capacity. On six benchmarks spanning mathematical reasoning, code generation, and conversation, \modelname attains average wall-clock speedups of 5.52x on Qwen3-4B, 5.46x on Qwen3-8B, and 3.91x on GPT-OSS-20B, improving over DFlash by roughly 11\%, 8\%, and 5\% respectively. Our code is available at https://github.com/Tencent/AngelSlim.
- Abstract(参考訳): ブロック拡散投機的復号化は、目標モデルが並列に検証するためにブロック内のすべてのトークンを同時に予測することにより、LCM推論を加速する。
ブロック全体を一度に予測するには、十分に能力のあるドラフトモデルと、ターゲットモデルの内部知識を効果的に活用する必要がある。
しかし、最先端のメソッドであるDFlashは、すべてのドラフトレイヤに対して、少数のターゲット層から派生した単一の融合表現を共有することを制限し、レイヤごとの表現性を制限し、ドラフトキャパシティのさらなるスケーリングを妨げる。
本稿では,DFlash の狭い条件付ボトルネックを軽量な層融合機構によって表現する \modelname について述べる。
この拡張されたレイヤごとの表現力により、一貫した利得で、ドラフトモデルをより深いアーキテクチャに拡張することができる。
さらに、800Kから2.4Mサンプルのトレーニングデータをスケールして、拡張能力を完全に活用する。
数学的推論、コード生成、会話にまたがる6つのベンチマークにおいて、 \modelnameはQwen3-4Bで平均ウォールクロックのスピードアップを5.52倍、Qwen3-8Bで5.46倍、GPT-OSS-20Bで3.91倍、それぞれ約11\%、8\%、および5\%を達成した。
私たちのコードはhttps://github.com/Tencent/AngelSlim.comで利用可能です。
関連論文リスト
- DFlash: Block Diffusion for Flash Speculative Decoding [11.98141750480807]
自己回帰型大規模言語モデル(LLM)は高い性能を提供するが、本質的にシーケンシャルなデコーディングを必要とする。
本稿では,並列起草のための軽量ブロック拡散モデルを用いた投機的復号化フレームワークであるDFlashを紹介する。
論文 参考訳(メタデータ) (2026-02-05T18:59:30Z) - LLaDA2.0: Scaling Up Diffusion Language Models to 100B [96.84156938318931]
LLaDA2.0 - 離散拡散大言語モデル(dLLM)を100億の総パラメータにスケールアップする。
LLaDA2.0は知識継承、進歩的適応、効率性に配慮した設計原則を支持している。
LLaDA2.0-mini (16B) と LLaDA2.0-flash (100B) の2つの命令調整型Mixture-of-Experts (MoE) が実用的展開に最適化されている。
論文 参考訳(メタデータ) (2025-12-10T09:26:18Z) - TiDAR: Think in Diffusion, Talk in Autoregression [59.94106070312094]
TiDARは、Diffusionでトークン(Thinking)をドラフトし、最終的な出力(Talking)をAutoRegressivelyにサンプリングするシーケンスレベルのハイブリッドアーキテクチャである。
TiDARはARモデルと品質ギャップを埋める最初のアーキテクチャであり、毎秒4.71倍から5.91倍のトークンを提供する。
論文 参考訳(メタデータ) (2025-11-12T02:59:33Z) - Fast-dLLM v2: Efficient Block-Diffusion LLM [64.38006546510337]
Fast-dLLM v2はブロック拡散言語モデルで、訓練済みのARモデルをdLLMに適応して並列テキストを生成する。
これは、Dream(580Bトークン)のようなフルアテンション拡散LDMと比較して、トレーニングデータの500倍の減少を示す。
論文 参考訳(メタデータ) (2025-09-30T14:40:18Z) - Revolutionizing Reinforcement Learning Framework for Diffusion Large Language Models [49.911784762244814]
TraceRLは拡散言語モデル(DLM)のための軌道対応強化学習フレームワークである
我々は最先端の拡散言語モデル、すなわち TraDo を導出する。
TraDo-8B-InstructはQwen2.5-7B-Instructで6.1%、Llama3.1-8B-Instructで51.3%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-09-08T17:58:06Z) - ML-SpecQD: Multi-Level Speculative Decoding with Quantized Drafts [79.62448915248926]
16ビットモデル推論の精度を犠牲にすることなくLSM推論を高速化する手法として、投機復号法(SD)が登場した。
MXFP4Weight-Only-Quantization (WOQ)は、単にBF16ターゲットモデルの重みをMXFP4に直接キャストするだけなので、MXFP4モデルをプラグアンドプレイ方式でドラフトとして使用することを提案する。
私たちのプラグアンドプレイソリューションでは,BF16ベースラインの最大2倍のスピードアップを実現しています。
論文 参考訳(メタデータ) (2025-03-17T08:38:45Z) - Sparse Concept Bottleneck Models: Gumbel Tricks in Contrastive Learning [86.15009879251386]
概念ボトルネックモデル(CBM)を用いた新しいアーキテクチャと説明可能な分類法を提案する。
CBMには、さらなる概念のセットが必要である。
CLIPをベースとしたボトルネックモデルにおいて,スパース隠れ層を用いた精度の大幅な向上を示す。
論文 参考訳(メタデータ) (2024-04-04T09:43:43Z) - Direct Alignment of Draft Model for Speculative Decoding with Chat-Fine-Tuned LLMs [11.245862832561176]
投機的復号化による推論アクセラレーションを実現するためには、高品質なドラフトモデルをトレーニングする必要がある。
我々は、Llama 2 Chat Drafter 115M、Llama 2 Chat 7B以上のドラフトモデル、オリジナルサイズの1.64%しか持たないLlama 2 Chat Drafter 115Mを訓練する。
Llama 2 Chat Dr After 115M with speculative decoding は最大2.3ブロック効率と2.4$times$ speed-upを実現している。
論文 参考訳(メタデータ) (2024-02-29T19:55:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。