論文の概要: dLLM-Cache: Accelerating Diffusion Large Language Models with Adaptive Caching
- arxiv url: http://arxiv.org/abs/2506.06295v1
- Date: Sat, 17 May 2025 15:50:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 03:13:19.029859
- Title: dLLM-Cache: Accelerating Diffusion Large Language Models with Adaptive Caching
- Title(参考訳): dLLM-Cache: 適応キャッシングによる拡散大言語モデルの高速化
- Authors: Zhiyuan Liu, Yicun Yang, Yaojie Zhang, Junjie Chen, Chang Zou, Qingyuan Wei, Shaobo Wang, Linfeng Zhang,
- Abstract要約: 拡散に基づく大規模言語モデルは、反復的にマスキングされたセグメントによってテキストを生成する。
dLLMは高い推論遅延に悩まされる。
従来のARMアクセラレーション技術は、dLLMと互換性がない。
トレーニング不要な適応型キャッシュフレームワークであるdLLM-Cacheを提案する。
- 参考スコア(独自算出の注目度): 27.114862565164145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive Models (ARMs) have long dominated the landscape of Large Language Models. Recently, a new paradigm has emerged in the form of diffusion-based Large Language Models (dLLMs), which generate text by iteratively denoising masked segments. This approach has shown significant advantages and potential. However, dLLMs suffer from high inference latency. Traditional ARM acceleration techniques, such as Key-Value caching, are incompatible with dLLMs due to their bidirectional attention mechanism. To address this specific challenge, our work begins with a key observation that dLLM inference involves a static prompt and a partially dynamic response, where most tokens remain stable across adjacent denoising steps. Based on this, we propose dLLM-Cache, a training-free adaptive caching framework that combines long-interval prompt caching with partial response updates guided by feature similarity. This design enables efficient reuse of intermediate computations without compromising model performance. Extensive experiments on representative dLLMs, including LLaDA 8B and Dream 7B, show that dLLM-Cache achieves up to 9.1 x speedup over standard inference without compromising output quality. Notably, our method brings dLLM inference latency close to that of ARMs under many settings. Codes are provided in the supplementary material and will be released publicly on GitHub.
- Abstract(参考訳): 自己回帰モデル(ARM)は、長い間、大規模言語モデルのランドスケープを支配してきた。
近年,拡散型大規模言語モデル (dLLMs) の形で新たなパラダイムが登場し,マスキングセグメントを反復的にデノベートすることでテキストを生成する。
このアプローチは大きな利点と可能性を示しています。
しかし、dLLMは高い推論遅延に悩まされる。
キーバリューキャッシュのような従来のARMアクセラレーション技術は、その双方向の注意機構のため、dLLMと互換性がない。
この課題に対処するために、我々の研究は、dLLM推論が静的なプロンプトと部分的にダイナミックな応答を伴い、ほとんどのトークンが隣接する分母ステップで安定しているというキーとなる観察から始まります。
これに基づいて,長いインターバルプロンプトキャッシュと機能類似性によってガイドされる部分応答更新を組み合わせた,トレーニング不要な適応キャッシュフレームワークであるdLLM-Cacheを提案する。
この設計により、モデル性能を損なうことなく、中間計算の効率的な再利用が可能となる。
LLaDA 8BやDream 7Bといった代表的dLLMの広範な実験は、dLLMキャッシュが出力品質を損なうことなく標準推論よりも最大9.1倍のスピードアップを達成することを示した。
特に、我々の手法は、多くの設定下で、ARMのそれに近いdLLM推論遅延をもたらす。
コードは補足資料で提供されており、GitHubで公開される予定である。
関連論文リスト
- Accelerating Diffusion Large Language Models with SlowFast: The Three Golden Principles [25.10417042130122]
拡散に基づく言語モデル (dLLMs) は従来の自己回帰型LLMに代わる有望な代替品として登場した。
信頼ベースや半自己回帰復号のような既存のdLLMのサンプリング戦略は、しばしば静的な振る舞いに悩まされる。
探索段階と高速化段階を交互に行う新しい動的サンプリング手法であるSlowFast Smplingを提案する。
論文 参考訳(メタデータ) (2025-06-12T16:08:28Z) - MNN-LLM: A Generic Inference Engine for Fast Large Language Model Deployment on Mobile Devices [4.385815629175844]
MNN-LLMは、モバイルデバイスへの大規模言語モデルのデプロイを加速するために設計されたフレームワークである。
モデル量子化とDRAM-FlashハイブリッドストレージによるLCMのランタイム特性に対処する。
特に、MNN-LLMは、現在のLLM固有のフレームワークと比較して8.6倍の速度向上を実現している。
論文 参考訳(メタデータ) (2025-06-12T07:45:29Z) - Esoteric Language Models [31.619674001793875]
我々は,ARとMDMのパラダイムを融合した新しいモデルのファミリーであるEso-LMを紹介する。
Eso-LMは、標準言語モデリングベンチマークに新しい状態を設定した。
我々は、並列生成を保持しながら、DMs*のKVキャッシュを導入する**です。
論文 参考訳(メタデータ) (2025-06-02T17:47:27Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - Accelerating Diffusion Language Model Inference via Efficient KV Caching and Guided Diffusion [16.99620863197586]
拡散言語モデルは並列トークン生成と本質的に双方向性を提供する。
最先端拡散モデル(ドリーム7B、LLaDA 8Bなど)は推論が遅い。
我々は,トークンアンマキングを監督するために,軽量な事前学習型自己回帰モデルを用いた学習自由度法であるガイドド拡散を導入する。
拡散言語モデルが初めて、広く採用されている自己回帰モデルと同等かつ高速なレイテンシを実現する。
論文 参考訳(メタデータ) (2025-05-27T17:39:39Z) - Dimple: Discrete Diffusion Multimodal Large Language Model with Parallel Decoding [53.82301522384719]
Dimple, the first Discrete Multimodal Large Language Model (DMLLM)を提案する。
我々は,初期自己回帰フェーズとその後の拡散フェーズを組み合わせた新しい訓練パラダイムを設計する。
Dimple-7BはLLaVA-を3.9%上回り、DMLLMは自己回帰モデルに匹敵する性能を達成できることを示した。
論文 参考訳(メタデータ) (2025-05-22T17:55:04Z) - dKV-Cache: The Cache for Diffusion Language Models [53.85291644298835]
Diffusion Language Models (DLMs) は自己回帰型言語モデルにとって有望な競合と見なされている。
本稿では,DLMの復調過程に対するKVキャッシュ機構,遅延KVキャッシュを提案する。
我々のアプローチは、異なるトークンが拡散過程を通して異なる表現力学を持つという観察によって動機付けられている。
論文 参考訳(メタデータ) (2025-05-21T17:32:10Z) - AB-Cache: Training-Free Acceleration of Diffusion Models via Adams-Bashforth Cached Feature Reuse [19.13826316844611]
拡散モデルは生成的タスクにおいて顕著に成功したが、反復的認知過程は推論を遅くする。
本稿では,第2次Adams-Bashforth法を用いて認知過程を解析することにより理論的に理解する。
キャッシュされた結果を直接再利用する代わりに,拡散モデルに対するキャッシングに基づく新しい高速化手法を提案する。
論文 参考訳(メタデータ) (2025-04-13T08:29:58Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。