論文の概要: SPA-Cache: Singular Proxies for Adaptive Caching in Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2602.02544v1
- Date: Fri, 30 Jan 2026 05:22:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:14.919231
- Title: SPA-Cache: Singular Proxies for Adaptive Caching in Diffusion Language Models
- Title(参考訳): SPAキャッシュ:拡散言語モデルにおける適応キャッシングのための特異プロキシ
- Authors: Wenhao Sun, Rong-Cheng Tu, Yifu Ding, Zhao Jin, Jingyi Liao, Yongcheng Jing, Dacheng Tao,
- Abstract要約: DLMキャッシュにおける更新識別と予算配分を共同で最適化するSPAキャッシュを提案する。
まず、低次元部分空間における更新臨界トークンの識別を可能にする低次元特異プロキシを導出する。
第2に、生成品質を劣化させることなく、安定したレイヤへの更新を少なくするアダプティブ戦略を導入する。
- 参考スコア(独自算出の注目度): 56.45983529954998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Diffusion Language Models (DLMs) offer a flexible, arbitrary-order alternative to the autoregressive paradigm, their non-causal nature precludes standard KV caching, forcing costly hidden state recomputation at every decoding step. Existing DLM caching approaches reduce this cost by selective hidden state updates; however, they are still limited by (i) costly token-wise update identification heuristics and (ii) rigid, uniform budget allocation that fails to account for heterogeneous hidden state dynamics. To address these challenges, we present SPA-Cache that jointly optimizes update identification and budget allocation in DLM cache. First, we derive a low-dimensional singular proxy that enables the identification of update-critical tokens in a low-dimensional subspace, substantially reducing the overhead of update identification. Second, we introduce an adaptive strategy that allocates fewer updates to stable layers without degrading generation quality. Together, these contributions significantly improve the efficiency of DLMs, yielding up to an $8\times$ throughput improvement over vanilla decoding and a $2$--$4\times$ speedup over existing caching baselines.
- Abstract(参考訳): Diffusion Language Models (DLMs) は自己回帰パラダイムに代わる柔軟で任意の順序の代替を提供するが、その非因果性は標準的なKVキャッシングを妨げ、デコードステップ毎にコストがかかる状態再計算を強制する。
既存のDLMキャッシュアプローチは、選択的に隠された状態更新によって、このコストを削減するが、それでも制限されている。
(i)トークン単位の更新識別ヒューリスティックス及び
(ii) 不均一な隠蔽状態のダイナミクスを考慮しない、厳格で均一な予算配分。
これらの課題に対処するため、DLMキャッシュの更新識別と予算配分を共同で最適化するSPAキャッシュを提案する。
まず、低次元部分空間における更新クリティカルトークンの識別を可能にする低次元特異プロキシを導出し、更新識別のオーバーヘッドを大幅に低減する。
第2に、生成品質を劣化させることなく、安定したレイヤへの更新を少なくするアダプティブ戦略を導入する。
これらの貢献により、DLMの効率が大幅に向上し、バニラ復号化によるスループットが最大8ドル、既存のキャッシュベースラインよりも2ドル~4ドル以上向上した。
関連論文リスト
- Attention Is All You Need for KV Cache in Diffusion LLMs [36.94369617373333]
Elastic-Cacheは、拡散大言語モデルのための適応型層対応キャッシュ更新を実行する。
提案手法は,既存の信頼度に基づく手法よりも高いスループット(GSM8Kで6.8時間)を実現する。
論文 参考訳(メタデータ) (2025-10-16T17:59:48Z) - d$^2$Cache: Accelerating Diffusion-Based LLMs via Dual Adaptive Caching [7.004421957218099]
拡散に基づく大規模言語モデル(dLLM)は推論効率が劣る。
我々は、dLLM推論を高速化するためのトレーニング不要な近似KVキャッシュフレームワークであるd$2$Cacheを紹介した。
論文 参考訳(メタデータ) (2025-09-27T04:07:23Z) - PDTrim: Targeted Pruning for Prefill-Decode Disaggregation in Inference [16.54910591046794]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的な能力を示すが、その展開は高い計算とメモリコストに制約される。
より正確で効率的なブロックとKVキャッシュのプルーニングを可能にするPD分散推論のための新しいプルーニング法を提案する。
論文 参考訳(メタデータ) (2025-08-29T02:29:52Z) - Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [72.27673320976933]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおけるブレークスルーを可能にする。
現在のキャッシュ技術は、フルレイヤ状態を保存することでデコーディングを加速するが、メモリ使用量を大幅に増加させる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z) - dKV-Cache: The Cache for Diffusion Language Models [53.85291644298835]
Diffusion Language Models (DLMs) は自己回帰型言語モデルにとって有望な競合と見なされている。
本稿では,DLMの復調過程に対するKVキャッシュ機構,遅延KVキャッシュを提案する。
我々のアプローチは、異なるトークンが拡散過程を通して異なる表現力学を持つという観察によって動機付けられている。
論文 参考訳(メタデータ) (2025-05-21T17:32:10Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。