論文の概要: Reconstructing KV Caches with Cross-layer Fusion For Enhanced Transformers
- arxiv url: http://arxiv.org/abs/2512.03870v1
- Date: Wed, 03 Dec 2025 15:22:00 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 11:59:20.441904
- Title: Reconstructing KV Caches with Cross-layer Fusion For Enhanced Transformers
- Title(参考訳): 改良型変圧器用層間融合KVキャッシュの再構成
- Authors: Hongzhan Lin, Zhiqi Bai, Xinmiao Zhang, Sen Yang, Xiang Li, Siran Yang, Yunlong Xu, Jiaheng Liu, Yongchi Zhao, Jiamang Wang, Yuchi Xu, Wenbo Su, Bo Zheng,
- Abstract要約: 層間KVキャッシュの共有は、KVキャッシュのボトルネックを軽減するための経路を提供するが、通常、GQAのような層内メソッドでは性能が劣る。
最上層KVキャッシュは,最下層と中層からの最も情報性の高いキャッシュの融合であるFusedKVを提案する。
FusedKVと比較すると、FusedKV-Liteは難易度をわずかに増加させるコストでI/Oオーバーヘッドを低減する。
- 参考スコア(独自算出の注目度): 35.286226181391754
- License:
- Abstract: Transformer decoders have achieved strong results across tasks, but the memory required for the KV cache becomes prohibitive at long sequence lengths. Although Cross-layer KV Cache sharing (e.g., YOCO, CLA) offers a path to mitigate KV Cache bottleneck, it typically underperforms within-layer methods like GQA. To understand the root cause, we investigate the information flow of keys and values of the top-layers. Our preliminary reveals a clear distribution: values are predominantly derived from the bottom layer, while keys draw more information from both bottom and middle layers. Building upon this, we propose FusedKV, whose top-layer KV caches are a learnable fusion of the most informative ones from the bottom and middle layers. This fusion operates directly on post-RoPE keys, preserving relative positional information without the computational cost of re-applying rotary embeddings. To further improve efficiency, we propose FusedKV-Lite, an cross-layer sharing approach, where top-layer KV caches are directly derived from the bottom-layer values and the middle-layer keys. Compared to FusedKV, FusedKV-Lite reduces I/O overhead at the cost of a slight increase in perplexity. In experiments on LLMs ranging from 332M to 4B parameters, our proposed method reduce 50\% cache memory while achieving lower validation perplexity than the standard Transformer decoder, establishing it as a memory-efficient, high-performance architectural alternative.
- Abstract(参考訳): トランスフォーマーデコーダはタスク間で強い結果を得たが、KVキャッシュに必要なメモリは長いシーケンス長で禁止される。
層間KVキャッシュの共有(例:YOCO、CLA)は、KVキャッシュのボトルネックを軽減するためのパスを提供するが、通常、GQAのような層内メソッドでは性能が劣る。
根本原因を理解するため,トップレイヤのキーと値の情報フローについて検討する。
キーは下層と中層の両方からより多くの情報を引き出す。
そこで我々は,FusedKVを提案する。トップレイヤのKVキャッシュは,下層と中層から最も情報に富むキャッシュを学習可能な融合である。
この融合はポストRoPEキーで直接動作し、回転埋め込みを再度適用する計算コストを伴わずに相対的な位置情報を保存する。
さらに効率を向上するために,最上層KVキャッシュを底層値と中層キーから直接引き出す,層間共有方式FusedKV-Liteを提案する。
FusedKVと比較すると、FusedKV-Liteは難易度をわずかに増加させるコストでI/Oオーバーヘッドを低減する。
提案手法は, 332M から 4B までの LLM 実験において, 標準的な Transformer 復号器よりも高い検証精度を実現しつつ, キャッシュメモリを 50 % 削減し, メモリ効率, 高性能なアーキテクチャ代替品として確立した。
関連論文リスト
- KV-Latent: Dimensional-level KV Cache Reduction with Frequency-aware Rotary Positional Embedding [72.12756830560217]
Transformer Decodersをベースとした大規模言語モデル(LLM)が、会話生成AIの選択肢として好まれている。
デコーダアーキテクチャの全体的な優位性にもかかわらず、推論中にキーバリューキャッシュが徐々に増加し、主要な効率ボトルネックとなっている。
キーバリューベクトル次元を潜在空間にダウンサンプリングすることで、KVキャッシュのフットプリントを大幅に削減し、推論速度を向上させることができる。
論文 参考訳(メタデータ) (2025-07-15T12:52:12Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。
キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。
本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - MatryoshkaKV: Adaptive KV Compression via Trainable Orthogonal Projection [14.073722038551125]
KVキャッシュは、大規模言語モデルの推論におけるデファクト技術となっている。
本稿では,低ランクな投影行列を用いて,キャッシュ特性を次元を小さくした空間に変換する。
提案手法は, 平均KVキャッシュ圧縮率60%で90%以上の性能を維持することができる。
論文 参考訳(メタデータ) (2024-10-16T08:34:51Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - CSKV: Training-Efficient Channel Shrinking for KV Cache in Long-Context Scenarios [13.144156413032896]
KVキャッシュ圧縮のための訓練効率の高いチャネルシンキング技術であるCSKVを紹介する。
CSKVは、モデル長文機能を維持しながら、KVキャッシュのメモリオーバーヘッドを80%削減できることを示す。
我々の手法は量子化とシームレスに組み合わせることでメモリオーバーヘッドをさらに低減し、最大95%の圧縮比を達成することができる。
論文 参考訳(メタデータ) (2024-09-16T17:36:50Z) - PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [38.732413451399]
ピラミッドKVは新規かつ効果的なKVキャッシュ圧縮法である。
提案手法は,KVキャッシュの12%しか保持せず,完全なKVキャッシュでモデルの性能と一致していることを示す。
Needle-in-a-Haystack実験では、Praamid KVは長文理解の維持において競合する手法より優れている。
論文 参考訳(メタデータ) (2024-06-04T07:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。