論文の概要: EntropyCache: Decoded Token Entropy Guided KV Caching for Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2603.18489v1
- Date: Thu, 19 Mar 2026 04:46:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.960803
- Title: EntropyCache: Decoded Token Entropy Guided KV Caching for Diffusion Language Models
- Title(参考訳): EntropyCache: 拡散言語モデルのためのDecoded Token Entropy Guided KV Caching
- Authors: Minsoo Cheong, Donghyun Son, Woosang Lim, Sungjoo Yoo,
- Abstract要約: 本稿では,新たに復号されたトークン分布の最大エントロピーを,いつ再計算するかを決定するための定コスト信号として利用する,トレーニング不要なKVキャッシュ手法であるEntropyCacheを提案する。
LLaDA-8B-InstructとDream-7B-Instructの実験によると、EntropyCacheは15.2times$-26.4times$標準ベンチマークのスピードアップ、22.4times$-24.1times$-24.1times$。
- 参考スコア(独自算出の注目度): 8.323540970510809
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based large language models (dLLMs) rely on bidirectional attention, which prevents lossless KV caching and requires a full forward pass at every denoising step. Existing approximate KV caching methods reduce this cost by selectively updating cached states, but their decision overhead scales with context length or model depth. We propose EntropyCache, a training-free KV caching method that uses the maximum entropy of newly decoded token distributions as a constant-cost signal for deciding when to recompute. Our design is grounded in two empirical observations: (1) decoded token entropy correlates with KV cache drift, providing a cheap proxy for cache staleness, and (2) feature volatility of decoded tokens persists for multiple steps after unmasking, motivating recomputation of the $k$ most recently decoded tokens. The skip-or-recompute decision requires only $O(V)$ computation per step, independent of context length and model scale. Experiments on LLaDA-8B-Instruct and Dream-7B-Instruct show that EntropyCache achieves $15.2\times$-$26.4\times$ speedup on standard benchmarks and $22.4\times$-$24.1\times$ on chain-of-thought benchmarks, with competitive accuracy and decision overhead accounting for only $0.5\%$ of inference time. Code is available at https://github.com/mscheong01/EntropyCache.
- Abstract(参考訳): 拡散ベースの大規模言語モデル(dLLM)は双方向の注意に依存しており、損失のないKVキャッシュを防ぎ、デノイングステップ毎にフルフォワードパスを必要とする。
既存の近似KVキャッシュ手法は、キャッシュされた状態を選択的に更新することで、このコストを削減するが、その決定オーバーヘッドはコンテキスト長やモデル深さでスケールする。
本稿では,新たに復号されたトークン分布の最大エントロピーを,いつ再計算するかを決定するための定コスト信号として利用する,トレーニング不要なKVキャッシュ手法であるEntropyCacheを提案する。
我々は,(1)復号化トークンエントロピーはKVキャッシュドリフトと相関し,キャッシュの安定化のための安価なプロキシを提供するとともに,(2)復号化トークンの特徴ボラティリティはアンマスク後の複数ステップで持続し,最近の復号化トークンの$k$の再計算を動機付けている。
skip-or-recompute決定は、コンテキストの長さとモデルスケールによらず、ステップ毎に$O(V)$の計算しか必要としない。
LLaDA-8B-InstructとDream-7B-Instructの実験によると、EntropyCacheは15.2\times$-26.4\times$標準ベンチマークのスピードアップ、22.4\times$-24.1\times$-24.1\times$で、競合精度と決定オーバーヘッドはわずか0.5\%の推論時間で達成されている。
コードはhttps://github.com/mscheong01/EntropyCacheで入手できる。
関連論文リスト
- SPA-Cache: Singular Proxies for Adaptive Caching in Diffusion Language Models [56.45983529954998]
DLMキャッシュにおける更新識別と予算配分を共同で最適化するSPAキャッシュを提案する。
まず、低次元部分空間における更新臨界トークンの識別を可能にする低次元特異プロキシを導出する。
第2に、生成品質を劣化させることなく、安定したレイヤへの更新を少なくするアダプティブ戦略を導入する。
論文 参考訳(メタデータ) (2026-01-30T05:22:44Z) - Joint Encoding of KV-Cache Blocks for Scalable LLM Serving [3.3230675313521716]
既存のKV-cache圧縮手法は剛性に依存し、テンソルレイアウトを乱したり、特別な計算を必要とする。
KV-cacheブロックの連成符号化を提案し、要求と入力チャンクに類似したブロックを融合して共有表現を生成する。
これにより、KV-cacheメモリのボトルネックが軽減され、特別なハードウェアを使わずに高コンカレンシー機能をサポートする。
論文 参考訳(メタデータ) (2026-01-06T14:50:58Z) - KVReviver: Reversible KV Cache Compression with Sketch-Based Token Reconstruction [20.53279247581787]
スケッチアルゴリズムに基づく可逆的なKVキャッシュ圧縮手法であるKVReviverを提案する。
2kのコンテキストでは、同じエンドツーエンドの推論精度を維持しながら、KVキャッシュの予算の10%しか必要としない。
32kのコンテキストでは、同等または同等の精度の2%の精度の損失を達成する。
論文 参考訳(メタデータ) (2025-12-01T03:59:20Z) - Attention Is All You Need for KV Cache in Diffusion LLMs [36.94369617373333]
Elastic-Cacheは、拡散大言語モデルのための適応型層対応キャッシュ更新を実行する。
提案手法は,既存の信頼度に基づく手法よりも高いスループット(GSM8Kで6.8時間)を実現する。
論文 参考訳(メタデータ) (2025-10-16T17:59:48Z) - Catch Your Breath: Adaptive Computation for Self-Paced Sequence Production [55.76222360698305]
我々は,言語モデルが入力トークン毎に使用する計算ステップの数を動的かつ自律的に拡張できるような,教師付きトレーニング目標のクラスを探索する。
任意のトークンに対して、モデルは don't know> 出力を出力することで、追加の計算ステップを要求できる。
CYBモデルでは精度が向上し,トークンレベルの複雑性とコンテキストに処理時間を適用することができる。
論文 参考訳(メタデータ) (2025-10-13T21:07:05Z) - d$^2$Cache: Accelerating Diffusion-Based LLMs via Dual Adaptive Caching [7.004421957218099]
拡散に基づく大規模言語モデル(dLLM)は推論効率が劣る。
我々は、dLLM推論を高速化するためのトレーニング不要な近似KVキャッシュフレームワークであるd$2$Cacheを紹介した。
論文 参考訳(メタデータ) (2025-09-27T04:07:23Z) - dKV-Cache: The Cache for Diffusion Language Models [53.85291644298835]
Diffusion Language Models (DLMs) は自己回帰型言語モデルにとって有望な競合と見なされている。
本稿では,DLMの復調過程に対するKVキャッシュ機構,遅延KVキャッシュを提案する。
我々のアプローチは、異なるトークンが拡散過程を通して異なる表現力学を持つという観察によって動機付けられている。
論文 参考訳(メタデータ) (2025-05-21T17:32:10Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。