論文の概要: Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing
- arxiv url: http://arxiv.org/abs/2604.22782v1
- Date: Fri, 03 Apr 2026 14:56:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.17705
- Title: Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing
- Title(参考訳): 確率的KVルーティング: 適応的な深さのキャッシュ共有を実現する
- Authors: Anastasiia Filippova, David Grangier, Marco Cuturi, João Monteiro,
- Abstract要約: 高いスループットでトランスフォーマー言語モデルを実行するには、冗長な計算を避けるためにキーバリュー(KV)をキャッシュする必要がある。
KVキャッシュのメモリフットプリントは著しく、サービスコストに大きな影響を与えます。
本稿では,ランダムな層間注意(ランダムな層間注意,ランダムな層間注意,ランダムな層間注意)を提案する。
- 参考スコア(独自算出の注目度): 29.913403615975174
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Serving transformer language models with high throughput requires caching Key-Values (KVs) to avoid redundant computation during autoregressive generation. The memory footprint of KV caching is significant and heavily impacts serving costs. This work proposes to lessen these memory requirements. While recent work has largely addressed KV cache reduction via compression and eviction along the temporal axis, we argue that the \emph{depth} dimension offers an orthogonal and robust avenue for optimization. Although prior research suggests that a full cache for every layer is redundant, implementing cross-layer cache sharing remains a practical challenge; existing methods typically suffer from reduced throughput or increased time-to-first-token. In this paper, we demonstrate that dropping a layer's cache offers efficient optimization without information loss. We propose a simple training approach: random cross-layer attention. During training, layers randomly choose to attend either to their own KV states or those of a preceding layer. This stochastic process adapts the model to be robust to various depth-wise cache sharing strategies, ensuring flexibility for unknown hardware constraints at deployment time. Our evaluations show that applying this scheme during pre-training or fine-tuning enables depth-wise cache sharing for various model families. Furthermore, for larger models in data-constrained settings, this approach is suggestive of a regularization-like effect, frequently preserving or improving performance while significantly reducing the cache's memory footprint.
- Abstract(参考訳): 高スループットでトランスフォーマー言語モデルを実行するには、自動回帰生成時に冗長な計算を避けるためにキーバリュー(KV)をキャッシュする必要がある。
KVキャッシュのメモリフットプリントは著しく、サービスコストに大きな影響を与えます。
この研究は、これらのメモリ要求を減らすことを提案する。
最近の研究は、時間軸に沿った圧縮と消去によるKVキャッシュの削減に大きく取り組んできたが、我々は \emph{depth} 次元が最適化の直交的かつ頑健な道を提供すると主張している。
以前の調査では、すべてのレイヤの完全なキャッシュは冗長であることを示しているが、レイヤ間のキャッシュ共有の実装は依然として現実的な課題である。
本稿では,レイヤのキャッシュを落とせば,情報損失を伴わずに効率的に最適化できることを示す。
本稿では,ランダムなクロスレイヤーアテンションという簡単なトレーニング手法を提案する。
トレーニング中、レイヤはランダムに、自身のKV状態または前のレイヤのいずれかに参加することを選択します。
この確率的プロセスは、モデルを様々な深さのキャッシュ共有戦略に堅牢に適応させ、デプロイ時に未知のハードウェア制約に対する柔軟性を確保する。
評価の結果,事前学習や微調整にこの手法を適用することで,様々なモデルファミリに対して深いキャッシュ共有が可能であることが示唆された。
さらに、データ制約設定におけるより大きなモデルでは、キャッシュのメモリフットプリントを著しく削減しつつ、頻繁に保存または改善する正規化のような効果が示唆される。
関連論文リスト
- CAKE: Cascading and Adaptive KV Cache Eviction with Layer Preferences [36.05521425453999]
大きな言語モデル(LLM)は長いシーケンスの処理に優れ、キーバリュー(KV)キャッシングの需要が増大する。
我々は、KVキャッシュ消去を「ケーキスライシング問題」とみなす新しいアプローチであるCascading and Adaptive KV cache Eviction (CAKE)を導入する。
CAKEは、空間次元と時間次元の両方の注意ダイナミクスを考慮して層固有の好みを評価し、それに応じて合理的なキャッシュサイズを割り当て、カスケード方式でメモリ制約を管理する。
論文 参考訳(メタデータ) (2025-03-16T12:49:44Z) - PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [97.41972925670508]
大規模視覚言語モデル(LVLM)は、推論中に重要な計算とメモリオーバーヘッドを引き起こす。
ここでは、PrefixKVについて述べる。ここでは、Prefixは、元のシーケンスの位置ではなく、重要度に基づいて、上位ランクのKVを意味する。
本手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T15:48:59Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。