論文の概要: KV-RM: Regularizing KV-Cache Movement for Static-Graph LLM Serving
- arxiv url: http://arxiv.org/abs/2605.09735v1
- Date: Sun, 10 May 2026 20:10:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.397067
- Title: KV-RM: Regularizing KV-Cache Movement for Static-Graph LLM Serving
- Title(参考訳): KV-RM:静的グラフLLMサービングのための正規化KVキャッシュ運動
- Authors: Zhiqing Zhong, Zhijing Ye, Jian Zhang, Weijian Zheng, Bolun Sun, Xiaodong Yu,
- Abstract要約: 静的グラフLLMデコーダの下でKV-cache動作を規則化するランタイム設計であるKV-RMを提案する。
KV-RMは、静的グラフベースラインに対する混合長復号スループットとテール遅延を改善する。
- 参考スコア(独自算出の注目度): 6.997204534634303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Static-graph LLM decoders provide predictable launches, fixed tensor shapes, and low submission overhead, but online decoding exposes highly irregular KV-cache behavior: request lengths differ, EOS events arrive asynchronously, and logical histories fragment over time. Dynamic runtimes recover flexibility through paged KV management and step-level scheduling, while static-graph executors often over-reserve memory and suffer burst-time latency outliers. This paper studies whether much of this variability can be absorbed below a fixed decode interface. We present KV-RM, a runtime design that regularizes KV-cache movement beneath a static-graph LLM decoder. KV-RM decouples logical KV histories from physical storage, tracks active KV state through a block pager, and materializes each decode step through a single committed descriptor. A merge-staged transport path coalesces non-contiguous KV mappings into a small number of large transfer groups before a fixed-shape attention kernel consumes them. Optional bounded far-history summaries can be enabled under the same interface, but the core design does not depend on them. On a 2-GPU NVIDIA A100 node, KV-RM improves mixed-length decoding throughput and tail latency relative to a static-graph baseline, reduces reserved KV memory across workload families, and removes severe burst-time latency spikes under production-trace replay. These results suggest that KV-cache movement, rather than kernel shape, can be an effective boundary for recovering runtime flexibility in static-graph LLM serving.
- Abstract(参考訳): 静的グラフのLLMデコーダは、予測可能な起動、固定テンソル形状、低いオーバヘッドを提供するが、オンラインデコーダは極めて不規則なKVキャッシュの振る舞いを露呈する。
動的ランタイムはページ化されたKV管理とステップレベルのスケジューリングを通じて柔軟性を回復する一方、静的グラフエグゼキュータはメモリを過剰に保存し、バーストタイムのレイテンシーのアウトリーを被る。
本稿では,この変数の大部分が固定デコードインタフェース以下に吸収できるかどうかについて検討する。
静的グラフLLMデコーダの下でKV-cache動作を規則化するランタイム設計であるKV-RMを提案する。
KV-RMは物理ストレージから論理的なKV履歴を分離し、ブロックスペーサを介してアクティブなKV状態を追跡し、各デコードステップを1つのコミットディスクリプタで実体化する。
マージステージ輸送経路は、固定形状の注目カーネルがそれらを消費する前に、非連続KVマッピングを少数の大きな移動群に結合する。
任意のバウンダリを持つ遠歴史サマリーは、同じインターフェースで有効にすることができるが、コア設計はそれらに依存しない。
2-GPU NVIDIA A100ノードでは、KV-RMは、静的グラフベースラインと比較して、混合長復号スループットとテールレイテンシを改善し、ワークロードファミリ間で予約されたKVメモリを削減し、プロダクショントレースのリプレイで厳しいバーストタイムレイテンシのスパイクを取り除く。
これらの結果は、カーネル形状ではなくKV-cache運動が静的グラフLLMサービスにおける実行時の柔軟性回復に有効な境界となることを示唆している。
関連論文リスト
- DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。
DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。
実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文 参考訳(メタデータ) (2026-02-08T15:14:36Z) - KV-CAR: KV Cache Compression using Autoencoders and KV Reuse in Large Language Models [3.5171501100868876]
KVキャッシュはシーケンス長と埋め込み次元で成長し、しばしばモデル自体のメモリフットプリントを超える。
KV CARは,モデル忠実性を維持しつつ,KVキャッシュストレージを大幅に削減する,統一的で非依存なアーキテクチャフレームワークである。
Wikitext、C4、PIQA、WinograndeデータセットにわたるGPT 2とTinyLLaMAモデルの評価は、KV CARが最大47.85パーセントのKVキャッシュメモリ削減を達成したことを示している。
論文 参考訳(メタデータ) (2025-12-07T08:40:52Z) - KV-Efficient VLA: A Method of Speed up Vision Language Model with RNN-Gated Chunked KV Cache [0.9238700679836854]
VLA(Vision-Language-Action)モデルは、ロボットの認識と制御の統一を約束するが、そのスケーラビリティは、長軸推論における注意の二次的コストとキー値(KV)メモリの非有界成長によって制約される。
KV-Efficient VLAは、高ユーティリティコンテキストを選択的に保持する軽量なトレーニングフレンドリーなメカニズムを導入することで、これらの制限に対処するモデルに依存しないメモリ圧縮フレームワークである。
提案手法は,既存の自己回帰およびハイブリッドVLAスタックにシームレスに統合し,トレーニングパイプラインや下流制御ロジックを変更することなく,スケーラブルな推論を可能にする。
論文 参考訳(メタデータ) (2025-09-20T02:04:24Z) - GraphKV: Breaking the Static Selection Paradigm with Graph-Based KV Cache Eviction [9.309829912599367]
GraphKVは、KVキャッシュ圧縮のためのトークン選択を再定義するグラフベースのフレームワークである。
SnapKV や PyramidKV といった既存の KV キャッシュ消去手法をプラグイン・アンド・プレイ方式でシームレスに利用することができる。
論文 参考訳(メタデータ) (2025-08-30T06:56:28Z) - KV-Distill: Nearly Lossless Learnable Context Compression for LLMs [37.0803484148612]
我々は、長いコンテキストKVキャッシュをはるかに短い表現に蒸留するTransformer圧縮フレームワークであるKV-Distillを紹介する。
KV-Distillは、事前訓練されたモデルに対するパラメータ効率の良い適応器として訓練することができる。
ドメイン固有のコンテキストを微調整することで、下流のパフォーマンスを維持しながら、最大99%の長さを削減できる。
論文 参考訳(メタデータ) (2025-03-13T13:15:28Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [82.08922896531618]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。
我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。
認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文 参考訳(メタデータ) (2023-10-03T05:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。