論文の概要: YOCO++: Enhancing YOCO with KV Residual Connections for Efficient LLM Inference
- arxiv url: http://arxiv.org/abs/2604.13556v1
- Date: Wed, 15 Apr 2026 07:05:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.427291
- Title: YOCO++: Enhancing YOCO with KV Residual Connections for Efficient LLM Inference
- Title(参考訳): YOCO++: 効率的なLLM推論のためのKV残差接続によるYOCOの強化
- Authors: You Wu, Ziheng Chen, Yizhen Zhang, Haoyi Wu, Chengting Yu, Yuchi Xu, Wenbo Su, Bo Zheng, Kewei Tu,
- Abstract要約: YOCOは、中間層のKVを最上層と共有する層間KV圧縮法である。
YOCO++は各ボトムハーフ層とボトム層のKV間の重み付け残差接続を組み込んでいる。
実験の結果, YOCO++は50%のKVキャッシュ圧縮速度で, 層間KV圧縮方式の最先端性能を実現することがわかった。
- 参考スコア(独自算出の注目度): 48.209627071377234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-layer key-value (KV) compression has been found to be effective in efficient inference of large language models (LLMs). Although they reduce the memory consumption of the KV cache, such methods usually introduce non-negligible performance degradation. In this work, we aim to enhance the performance of YOCO, a cross-layer KV compression method that shares the KVs of the middle layer with the top-half layers. We propose YOCO++, an enhanced YOCO that incorporates a weighted residual connection between the KVs of each bottom-half layer and the bottom layer. Compared to YOCO, YOCO++ increases model capacity while maintaining the same training and inference efficiency. Our experiments show that YOCO++ achieves state-of-the-art performance among the cross-layer KV compression methods at a 50% KV cache compression rate, outperforming the standard Transformer.
- Abstract(参考訳): 層間鍵値(KV)圧縮は,大規模言語モデル(LLM)の効率的な推論に有効であることが判明した。
KVキャッシュのメモリ消費を減少させるが、そのような手法は通常、無視できない性能劣化をもたらす。
本研究では,中間層のKVを最上層と共有する層間KV圧縮法であるYOCOの性能向上を図る。
本稿では,各下半減層と下半減層のKV間の重み付け残差接続を組み込んだ拡張YOCO++を提案する。
YOCOと比較すると、YOCO++は同じトレーニングと推論効率を維持しながら、モデルのキャパシティを向上する。
実験の結果, YOCO++ は 50% KV キャッシュ圧縮速度で, クロスレイヤ KV 圧縮手法の最先端性能を実現し, 標準トランスフォーマーより優れていた。
関連論文リスト
- EchoKV: Efficient KV Cache Compression via Similarity-Based Reconstruction [55.026048429595384]
EchoKVは、標準と圧縮された推論間のオンデマンド移行を可能にする柔軟なKVキャッシュ圧縮スキームである。
高速で低コストなトレーニングを可能にする2段階の微調整戦略を導入する。
論文 参考訳(メタデータ) (2026-03-24T07:58:42Z) - One Size Does Not Fit All: Token-Wise Adaptive Compression for KV Cache [38.49582847975703]
低ランクKVキャッシュ圧縮のための新しいポストトレーニングフレームワークDynaKVを提案する。
我々の手法は既存の最先端圧縮技術より一貫して優れています。
SnapKVと統合した場合、DynaKVはKVキャッシュの6%しか保持せず、LongBenchベンチマークのベースラインパフォーマンスの94%を維持している。
論文 参考訳(メタデータ) (2026-02-03T13:20:36Z) - KVComp: A High-Performance, LLM-Aware, Lossy Compression Framework for KV Cache [7.019967158501771]
長文生成に最適化された汎用的で効率的なKVキャッシュ管理フレームワークであるKVCompを提案する。
KVCompは、KVキャッシュデータ特性に特化して設計された新しい損失圧縮技術を採用している。
KVCompは,従来の手法に比べて最大83%のメモリ削減率で,平均47%,最大83%の高速化を実現している。
論文 参考訳(メタデータ) (2025-08-30T18:25:19Z) - CommonKV: Compressing KV Cache with Cross-layer Parameter Sharing [54.34080239841088]
CommonKVは、隣接パラメータ共有による層間KVキャッシュ圧縮のトレーニング不要な方法である。
提案手法は,様々な圧縮比で既存の低ランクおよびクロスレイヤーの手法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-08-22T06:55:45Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。
キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。
本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - xKV: Cross-Layer SVD for KV-Cache Compression [8.250015628919098]
長いコンテキストウィンドウを持つ大規模言語モデル(LLM)は強力なアプリケーションを実現するが、メモリ消費のコストがかかる。
近年の研究では、KV-cacheを複数の層から共有表現にマージする試みが試みられている。
支配的な特異ベクトルは、KV-Cacheの複数の層に驚くほどよく整合していることが分かる。
xKVは複数のレイヤのKVキャッシュを共有低ランクサブスペースに統合し、KVキャッシュのサイズを大幅に削減する。
論文 参考訳(メタデータ) (2025-03-24T17:06:37Z) - KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。
実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。
我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文 参考訳(メタデータ) (2024-10-24T08:06:41Z) - CSKV: Training-Efficient Channel Shrinking for KV Cache in Long-Context Scenarios [13.144156413032896]
KVキャッシュ圧縮のための訓練効率の高いチャネルシンキング技術であるCSKVを紹介する。
CSKVは、モデル長文機能を維持しながら、KVキャッシュのメモリオーバーヘッドを80%削減できることを示す。
我々の手法は量子化とシームレスに組み合わせることでメモリオーバーヘッドをさらに低減し、最大95%の圧縮比を達成することができる。
論文 参考訳(メタデータ) (2024-09-16T17:36:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。