論文の概要: dKV-Cache: The Cache for Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2505.15781v1
- Date: Wed, 21 May 2025 17:32:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.80487
- Title: dKV-Cache: The Cache for Diffusion Language Models
- Title(参考訳): dKV-Cache: 拡散言語モデルのためのキャッシュ
- Authors: Xinyin Ma, Runpeng Yu, Gongfan Fang, Xinchao Wang,
- Abstract要約: Diffusion Language Models (DLMs) は自己回帰型言語モデルにとって有望な競合と見なされている。
本稿では,DLMの復調過程に対するKVキャッシュ機構,遅延KVキャッシュを提案する。
我々のアプローチは、異なるトークンが拡散過程を通して異なる表現力学を持つという観察によって動機付けられている。
- 参考スコア(独自算出の注目度): 53.85291644298835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Language Models (DLMs) have been seen as a promising competitor for autoregressive language models. However, diffusion language models have long been constrained by slow inference. A core challenge is that their non-autoregressive architecture and bidirectional attention preclude the key-value cache that accelerates decoding. We address this bottleneck by proposing a KV-cache-like mechanism, delayed KV-Cache, for the denoising process of DLMs. Our approach is motivated by the observation that different tokens have distinct representation dynamics throughout the diffusion process. Accordingly, we propose a delayed and conditioned caching strategy for key and value states. We design two complementary variants to cache key and value step-by-step: (1) dKV-Cache-Decode, which provides almost lossless acceleration, and even improves performance on long sequences, suggesting that existing DLMs may under-utilise contextual information during inference. (2) dKV-Cache-Greedy, which has aggressive caching with reduced lifespan, achieving higher speed-ups with quadratic time complexity at the cost of some performance degradation. dKV-Cache, in final, achieves from 2-10x speedup in inference, largely narrowing the gap between ARs and DLMs. We evaluate our dKV-Cache on several benchmarks, delivering acceleration across general language understanding, mathematical, and code-generation benchmarks. Experiments demonstrate that cache can also be used in DLMs, even in a training-free manner from current DLMs.
- Abstract(参考訳): Diffusion Language Models (DLMs) は自己回帰型言語モデルにとって有望な競合と見なされている。
しかし、拡散言語モデルは長い間、遅い推論によって制約されてきた。
主な課題は、非自己回帰アーキテクチャと双方向の注意がデコーディングを加速するキー値キャッシュを妨げることである。
我々は,このボトルネックに対処するため,DLMの復調過程に対して,KVキャッシュのような機構である遅延KVキャッシュを提案する。
我々のアプローチは、異なるトークンが拡散過程を通して異なる表現力学を持つという観察によって動機付けられている。
そこで本研究では,キーおよび値状態に対する遅延および条件付きキャッシュ戦略を提案する。
1) dKV-Cache-Decodeは、ほとんどロスレスなアクセラレーションを提供し、長いシーケンスのパフォーマンスも向上し、既存のDLMは推論時にコンテキスト情報を過小評価する可能性があることを示唆している。
2) dKV-Cache-Greedyは、寿命を短縮したアグレッシブキャッシングを持ち、性能劣化のコストで2次時間複雑性の高い高速化を実現している。
最後に、dKV-Cacheは2~10倍の高速化を実現し、ARとDLMのギャップを大幅に狭める。
いくつかのベンチマークでdKV-Cacheを評価し、一般的な言語理解、数学的、コード生成のベンチマークでアクセラレーションを提供する。
実験によると、キャッシュはDLMでも、現在のDLMからトレーニング不要な方法で使用することができる。
関連論文リスト
- QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。
これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。
そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文 参考訳(メタデータ) (2025-02-05T20:43:48Z) - VL-Cache: Sparsity and Modality-Aware KV Cache Compression for Vision-Language Model Inference Acceleration [7.463830743649754]
VLM(Vision-Language Models)は、多目的なタスクセットにまたがる印象的なパフォーマンスを実証している。
キーバリュー(KV)キャッシュは、画像やビデオなどの長い視覚的コンテキストをエンコードする。
既存のKVキャッシュ圧縮手法は大規模言語モデル(LLM)に有効である
VLM推論の高速化に適した新しいKVキャッシュ圧縮レシピを提案する。
論文 参考訳(メタデータ) (2024-10-29T20:04:34Z) - FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality [58.80996741843102]
FasterCacheは、高品質な生成を伴うビデオ拡散モデルの推論を高速化するために設計された、トレーニング不要の戦略である。
我々は、FasterCacheがビデオの質をベースラインと同等に保ちながら、ビデオ生成を著しく加速できることを示した。
論文 参考訳(メタデータ) (2024-10-25T07:24:38Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - Efficient LLM Inference with Kcache [3.945956673130761]
大規模言語モデル(LLM)はAIアプリケーションに大きな影響を与えている。
KVキャッシュ技術は業界で最も広く使われている技術の一つである。
本稿では,LLM 推論プロセスにおけるメモリボトルネック問題を軽減するため,新しい KCache 手法を提案する。
論文 参考訳(メタデータ) (2024-04-28T03:11:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。