論文の概要: Attention Is All You Need for KV Cache in Diffusion LLMs
- arxiv url: http://arxiv.org/abs/2510.14973v1
- Date: Thu, 16 Oct 2025 17:59:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:15.006947
- Title: Attention Is All You Need for KV Cache in Diffusion LLMs
- Title(参考訳): 拡散LDMにおけるKVキャッシュに必要な注意
- Authors: Quan Nguyen-Tri, Mukul Ranjan, Zhiqiang Shen,
- Abstract要約: Elastic-Cacheは、拡散大言語モデルのための適応型層対応キャッシュ更新を実行する。
提案手法は,既存の信頼度に基づく手法よりも高いスループット(GSM8Kで6.8時間)を実現する。
- 参考スコア(独自算出の注目度): 36.94369617373333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work studies how to adaptively recompute key-value (KV) caches for diffusion large language models (DLMs) to maximize prediction accuracy while minimizing decoding latency. Prior methods' decoders recompute QKV for all tokens at every denoising step and layer, despite KV states changing little across most steps, especially in shallow layers, leading to substantial redundancy. We make three observations: (1) distant ${\bf MASK}$ tokens primarily act as a length-bias and can be cached block-wise beyond the active prediction window; (2) KV dynamics increase with depth, suggesting that selective refresh starting from deeper layers is sufficient; and (3) the most-attended token exhibits the smallest KV drift, providing a conservative lower bound on cache change for other tokens. Building on these, we propose ${\bf Elastic-Cache}$, a training-free, architecture-agnostic strategy that jointly decides ${when}$ to refresh (via an attention-aware drift test on the most-attended token) and ${where}$ to refresh (via a depth-aware schedule that recomputes from a chosen layer onward while reusing shallow-layer caches and off-window MASK caches). Unlike fixed-period schemes, Elastic-Cache performs adaptive, layer-aware cache updates for diffusion LLMs, reducing redundant computation and accelerating decoding with negligible loss in generation quality. Experiments on LLaDA-Instruct, LLaDA-1.5, and LLaDA-V across mathematical reasoning and code generation tasks demonstrate consistent speedups: $8.7\times$ on GSM8K (256 tokens), $45.1\times$ on longer sequences, and $4.8\times$ on HumanEval, while consistently maintaining higher accuracy than the baseline. Our method achieves significantly higher throughput ($6.8\times$ on GSM8K) than existing confidence-based approaches while preserving generation quality, enabling practical deployment of diffusion LLMs.
- Abstract(参考訳): 本研究では,分散大言語モデル(DLM)のキー値キャッシュを適応的に再計算し,デコード遅延を最小限に抑えながら予測精度を最大化する方法について検討する。
従来のメソッドのデコーダは、ほとんどのステップ、特に浅いレイヤでKV状態がほとんど変化しないにも関わらず、各デノーシングステップとレイヤで全てのトークンに対してQKVを再計算し、実質的な冗長性をもたらす。
距離${\bf MASK}$トークンは、主に長さバイアスとして機能し、アクティブな予測ウィンドウを超えてブロック的にキャッシュすることができる; (2) KVダイナミクスは深さとともに増加し、深い層から始まる選択的なリフレッシュが十分であることを示す; 3) 最も注目されているトークンは、最小のKVドリフトを示し、他のトークンに対するキャッシュ変更の保守的な下限を提供する。
これらに基づいて、トレーニングフリーでアーキテクチャに依存しない戦略である${\bf Elastic-Cache}$を提案し、${when}$をリフレッシュ(最も注目されたトークンのドリフトテストを通じて)と${where}$をリフレッシュ(浅い層キャッシュとオフウィンドウのMASKキャッシュを再利用しながら、選択した層から前方に再計算するdeep-awareスケジュールを介して)を共同で決定します。
固定周期スキーマとは異なり、Elastic-Cacheは拡散LDMに対して適応的な層対応キャッシュ更新を実行し、冗長な計算を減らし、生成品質を損なうことなくデコーディングを高速化する。
LLaDA-Instruct、LLaDA-1.5、LLaDA-Vの数学的推論およびコード生成タスクによる実験では、GSM8K(256トークン)での8.7\times$、長いシーケンスでの45.1\times$、HumanEvalでの4.8\times$など、一貫したスピードアップが示されている。
提案手法は,既存の信頼性ベースのアプローチよりも高いスループット(GSM8Kで6.8\times$)を実現し,生成品質を保ちながら,拡散LDMの実用的展開を実現している。
関連論文リスト
- d$^2$Cache: Accelerating Diffusion-Based LLMs via Dual Adaptive Caching [7.004421957218099]
拡散に基づく大規模言語モデル(dLLM)は推論効率が劣る。
我々は、dLLM推論を高速化するためのトレーニング不要な近似KVキャッシュフレームワークであるd$2$Cacheを紹介した。
論文 参考訳(メタデータ) (2025-09-27T04:07:23Z) - dKV-Cache: The Cache for Diffusion Language Models [53.85291644298835]
Diffusion Language Models (DLMs) は自己回帰型言語モデルにとって有望な競合と見なされている。
本稿では,DLMの復調過程に対するKVキャッシュ機構,遅延KVキャッシュを提案する。
我々のアプローチは、異なるトークンが拡散過程を通して異なる表現力学を持つという観察によって動機付けられている。
論文 参考訳(メタデータ) (2025-05-21T17:32:10Z) - Progressive Sparse Attention: Algorithm and System Co-design for Efficient Attention in LLM Serving [10.835583587146274]
本稿では,$underlineP$rogressive $underlineS$parse $underlineA$ttentionメカニズムを提案する。
アルゴリズムの革新とシステムの共同設計を統合し、大規模言語モデルにおいて高い推論精度と効率性の両方を達成する。
実験によると、PSAは注意計算のKVキャッシュ使用量を2.4$times$と8.8$times$に削減し、エンドツーエンドのサービススループットを1.4$times$と2.0$times$に向上する。
論文 参考訳(メタデータ) (2025-03-01T07:56:42Z) - QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。
これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。
そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文 参考訳(メタデータ) (2025-02-05T20:43:48Z) - ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。
本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。
実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-04T10:58:27Z) - VL-Cache: Sparsity and Modality-Aware KV Cache Compression for Vision-Language Model Inference Acceleration [7.463830743649754]
VLM(Vision-Language Models)は、多目的なタスクセットにまたがる印象的なパフォーマンスを実証している。
キーバリュー(KV)キャッシュは、画像やビデオなどの長い視覚的コンテキストをエンコードする。
既存のKVキャッシュ圧縮手法は大規模言語モデル(LLM)に有効である
VLM推論の高速化に適した新しいKVキャッシュ圧縮レシピを提案する。
論文 参考訳(メタデータ) (2024-10-29T20:04:34Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。