論文の概要: RedKnot: Efficient Long-Context LLM Serving with Head-Aware KV Reuse and SegPagedAttention
- arxiv url: http://arxiv.org/abs/2606.06256v1
- Date: Thu, 04 Jun 2026 14:57:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.880798
- Title: RedKnot: Efficient Long-Context LLM Serving with Head-Aware KV Reuse and SegPagedAttention
- Title(参考訳): RedKnot: ヘッドアウェアKV再利用とSegPagedAttentionを併用した高効率LLM
- Authors: Yang Liu, ZhaoKai Luo, HuaYi Jin, ZhiYong Wang, RuoZhou He, BoYu Wang, Guanjie Chen, Junhao Hu,
- Abstract要約: LLMサービスのためのヘッドアウェアKVキャッシュ管理システムであるRedKnotを提案する。
RedKnotは、KVヘッドに沿ってKVキャッシュを分解することで、従来のモノリシックなKVキャッシュの抽象化を破る。
- 参考スコア(独自算出の注目度): 20.633983983180812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the input length of large language model (LLM) serving continues to grow, the KV cache has become a dominant bottleneck in AI infrastructure. It limits GPU memory capacity, serving concurrency, cache reuse, and distributed scalability. Several important problems, including position-independent KV cache, prefix KV cache compression, hot/cold KV cache separation, and distributed KV cache management, all depend on how the KV cache is represented and managed. However, existing serving systems largely rely on a monolithic KV cache abstraction, where the KV cache is treated as a homogeneous sequence of token-level memory blocks and managed with similar policies across attention heads and serving scenarios. We observe that KV cache utility is highly structured across KV heads: different heads exhibit different functional roles, attention distances, and runtime importance. Therefore, a full KV cache is not always necessary for every head, token range, or serving scenario. We present RedKnot, a head-aware KV cache management system for LLM serving. RedKnot breaks the conventional monolithic KV cache abstraction by decomposing the KV cache along KV heads, whose importance and effective attention ranges vary significantly across serving scenarios. This head-level decomposition turns the KV cache from a monolithic tensor abstraction into a structured memory object, enabling RedKnot to uniformly support position-independent KV reuse, prefix KV compression, hot/cold KV separation, and distributed KV placement while preserving output fidelity and improving resource efficiency, without requiring model retraining or fine-tuning. RedKnot establishes a new foundation for AI infrastructure by transforming the KV cache from a monolithic, passive runtime artifact into a dynamic, model-aware runtime substrate for scalable LLM serving.
- Abstract(参考訳): 大規模言語モデル(LLM)の入力長が増加し続けており、KVキャッシュはAIインフラストラクチャにおいて主要なボトルネックとなっている。
これにより、GPUメモリ容量、並行処理、キャッシュ再利用、分散スケーラビリティが制限される。
位置に依存しないKVキャッシュ、プレフィックスKVキャッシュ圧縮、ホット/コールドKVキャッシュ分離、分散KVキャッシュ管理といった重要な問題は、すべてKVキャッシュの表現と管理方法に依存する。
しかし、既存のサービスシステムはモノリシックなKVキャッシュの抽象化に大きく依存しており、KVキャッシュはトークンレベルのメモリブロックの均一なシーケンスとして扱われ、アテンションヘッドやサービスシナリオにまたがる同様のポリシーで管理される。
我々は、KVキャッシュユーティリティがKVヘッドにまたがって高度に構造化されていることを観察した。
したがって、すべてのヘッド、トークン範囲、あるいはサービスシナリオに対して、完全なKVキャッシュは必ずしも必要ではない。
LLMサービスのためのヘッドアウェアKVキャッシュ管理システムであるRedKnotを提案する。
RedKnotは、KVヘッドに沿ってKVキャッシュを分解することで、従来のモノリシックなKVキャッシュの抽象化を破る。
このヘッドレベル分解は、KVキャッシュをモノリシックテンソル抽象から構造化メモリオブジェクトに変換し、モデル再構成や微調整を必要とせず、出力の忠実さを保ちながら、位置独立KV再利用、プレフィックスKV圧縮、ホット/コールドKV分離、分散KV配置を均一にサポートできるようにする。
RedKnotは、KVキャッシュをモノリシックでパッシブなランタイムアーティファクトから、スケーラブルなLLMサービスのための動的モデル対応ランタイム基板に変換することで、AIインフラストラクチャの新たな基盤を確立する。
関連論文リスト
- KV-CAR: KV Cache Compression using Autoencoders and KV Reuse in Large Language Models [3.5171501100868876]
KVキャッシュはシーケンス長と埋め込み次元で成長し、しばしばモデル自体のメモリフットプリントを超える。
KV CARは,モデル忠実性を維持しつつ,KVキャッシュストレージを大幅に削減する,統一的で非依存なアーキテクチャフレームワークである。
Wikitext、C4、PIQA、WinograndeデータセットにわたるGPT 2とTinyLLaMAモデルの評価は、KV CARが最大47.85パーセントのKVキャッシュメモリ削減を達成したことを示している。
論文 参考訳(メタデータ) (2025-12-07T08:40:52Z) - Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach [9.778764951947016]
マルチモーダルな大言語モデルは、KVキャッシュが入力長に比例して増加するため、かなりの推論オーバーヘッドに悩まされる。
既存のマルチモーダルなKVキャッシュ圧縮手法は、キャッシュサイズを減らすためにアテンションスコアに依存している。
我々は、周波数領域誘導型、外周KV対応KVキャッシュ圧縮フレームワークであるFlashCacheを提案する。
論文 参考訳(メタデータ) (2025-11-20T20:25:34Z) - R-KV: Redundancy-aware KV Cache Compression for Reasoning Models [77.84539432982307]
共振モデル(R-KV)のための冗長性を考慮したKVキャッシュ圧縮を提案する。
R-KVはKVキャッシュの10%しか使用せず、完全なKVキャッシュ性能のほぼ100%を保っている。
驚くべきことに、R-KVは完全なKVキャッシュ性能の105%を達成し、KVキャッシュの16%を達成している。
論文 参考訳(メタデータ) (2025-05-30T02:03:24Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - Lossless KV Cache Compression to 2% [22.98828332096935]
この研究は、KVキャッシュを元のサイズの2%未満に圧縮することを目的とした、新しいアーキテクチャであるCLLA(Cross-Layer Latent Attention)を導入している。
CLLAは、アテンションヘッド/ディメンション低減、レイヤ共有、量子化技術を結合的なフレームワークに統合する。
論文 参考訳(メタデータ) (2024-10-20T02:17:35Z) - CSKV: Training-Efficient Channel Shrinking for KV Cache in Long-Context Scenarios [13.144156413032896]
KVキャッシュ圧縮のための訓練効率の高いチャネルシンキング技術であるCSKVを紹介する。
CSKVは、モデル長文機能を維持しながら、KVキャッシュのメモリオーバーヘッドを80%削減できることを示す。
我々の手法は量子化とシームレスに組み合わせることでメモリオーバーヘッドをさらに低減し、最大95%の圧縮比を達成することができる。
論文 参考訳(メタデータ) (2024-09-16T17:36:50Z) - PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [38.732413451399]
ピラミッドKVは新規かつ効果的なKVキャッシュ圧縮法である。
提案手法は,KVキャッシュの12%しか保持せず,完全なKVキャッシュでモデルの性能と一致していることを示す。
Needle-in-a-Haystack実験では、Praamid KVは長文理解の維持において競合する手法より優れている。
論文 参考訳(メタデータ) (2024-06-04T07:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。