論文の概要: Accelerating Diffusion Large Language Models with SlowFast: The Three Golden Principles
- arxiv url: http://arxiv.org/abs/2506.10848v1
- Date: Thu, 12 Jun 2025 16:08:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.828091
- Title: Accelerating Diffusion Large Language Models with SlowFast: The Three Golden Principles
- Title(参考訳): SlowFastによる拡散大言語モデルの高速化:3つの黄金原理
- Authors: Qingyan Wei, Yaojie Zhang, Zhiyuan Liu, Dongrui Liu, Linfeng Zhang,
- Abstract要約: 拡散に基づく言語モデル (dLLMs) は従来の自己回帰型LLMに代わる有望な代替品として登場した。
信頼ベースや半自己回帰復号のような既存のdLLMのサンプリング戦略は、しばしば静的な振る舞いに悩まされる。
探索段階と高速化段階を交互に行う新しい動的サンプリング手法であるSlowFast Smplingを提案する。
- 参考スコア(独自算出の注目度): 25.10417042130122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based language models (dLLMs) have emerged as a promising alternative to traditional autoregressive LLMs by enabling parallel token generation and significantly reducing inference latency. However, existing sampling strategies for dLLMs, such as confidence-based or semi-autoregressive decoding, often suffer from static behavior, leading to suboptimal efficiency and limited flexibility. In this paper, we propose SlowFast Sampling, a novel dynamic sampling strategy that adaptively alternates between exploratory and accelerated decoding stages. Our method is guided by three golden principles: certainty principle, convergence principle, and positional principle, which govern when and where tokens can be confidently and efficiently decoded. We further integrate our strategy with dLLM-Cache to reduce redundant computation. Extensive experiments across benchmarks and models show that SlowFast Sampling achieves up to 15.63$\times$ speedup on LLaDA with minimal accuracy drop, and up to 34.22$\times$ when combined with caching. Notably, our approach outperforms strong autoregressive baselines like LLaMA3 8B in throughput, demonstrating that well-designed sampling can unlock the full potential of dLLMs for fast and high-quality generation.
- Abstract(参考訳): 拡散ベースの言語モデル (dLLM) は、並列トークンの生成と推論遅延の大幅な低減により、従来の自己回帰型LLMに代わる有望な代替品として登場した。
しかし、信頼ベースや半自己回帰復号のような既存のdLLMのサンプリング戦略は、しばしば静的な振る舞いに悩まされ、最適以下の効率と柔軟性が制限される。
本稿では,探索段階と高速化段階を適応的に切り替える新しい動的サンプリング手法であるSlowFast Smplingを提案する。
本手法は, 確実性原理, 収束原理, 位置原理の3つの黄金原理によって導かれる。
さらに、冗長な計算を減らすために、dLLM-Cacheと戦略を統合します。
ベンチマークやモデルにわたる大規模な実験により、SlowFast SmplingはLLaDA上で最大15.63$\times$のスピードアップを実現し、キャッシングと組み合わせると最大34.22$\times$に達することが示されている。
この手法はLLaMA3 8Bのような高い自己回帰ベースラインをスループットで上回り、よく設計されたサンプリングが高速かつ高品質な生成のためにdLLMの潜在能力を最大限に活用できることを実証する。
関連論文リスト
- Accelerating Diffusion LLMs via Adaptive Parallel Decoding [50.9948753314669]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - Beyond Autoregression: Fast LLMs via Self-Distillation Through Time [1.5858234832499587]
拡散言語モデルでは,テキスト品質およびLAMBADA自然言語理解ベンチマークにおいて,少なくとも32個のトークンを同時に生成できることを示す。
実際には、1.3Bパラメータスケールでは、キャッシュなしでも拡散モデルはKVキャッシュを使用するARモデルよりも最大8倍高速なトークンを生成することができる。
論文 参考訳(メタデータ) (2024-10-28T13:56:30Z) - SWIFT: On-the-Fly Self-Speculative Decoding for LLM Inference Acceleration [10.970637831760136]
投機的復号法(SD)は,LLM推論を品質を損なうことなく高速化するためのパラダイムとして広く用いられている。
本稿では,LLMの中間層を適応的に選択して推論時にスキップする,オンザフライの自己投機的復号アルゴリズムであるSWIFTを紹介する。
実験により,SWIFTは生成したテキストの元の分布を保ちながら,1.3x-1.6x以上の高速化を実現することができることを示した。
論文 参考訳(メタデータ) (2024-10-09T14:15:30Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。