論文の概要: Krul: Efficient State Restoration for Multi-turn Conversations with Dynamic Cross-layer KV Sharing
- arxiv url: http://arxiv.org/abs/2507.08045v1
- Date: Thu, 10 Jul 2025 01:51:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.120082
- Title: Krul: Efficient State Restoration for Multi-turn Conversations with Dynamic Cross-layer KV Sharing
- Title(参考訳): Krul:動的層間KV共有によるマルチターン会話の効率的な状態復元
- Authors: Junyi Wen, Junyuan Liang, Zicong Hong, Wuhui Chen, Zibin Zheng,
- Abstract要約: 我々は,KVキャッシュの正確かつ効率的な復元を可能にするマルチターンLDM推論システムであるKrulを提案する。
Krulは、レイヤペア間の注目類似性に基づいて圧縮戦略を選択し、再計算ローディングパイプラインを使用してKVキャッシュを復元する。
タイム・ツー・ファースト・トケン(TTFT)の1.5x-2.68倍の削減、KVキャッシュストレージの1.33x-2.35倍の削減を実現している。
- 参考スコア(独自算出の注目度): 24.159793132911954
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Efficient state restoration in multi-turn conversations with large language models (LLMs) remains a critical challenge, primarily due to the overhead of recomputing or loading full key-value (KV) caches for all historical tokens. To address this, existing approaches compress KV caches across adjacent layers with highly similar attention patterns. However, these methods often apply a fixed compression scheme across all conversations, selecting the same layer pairs for compression without considering conversation-specific attention dynamics. This static strategy overlooks variability in attention pattern similarity across different conversations, which can lead to noticeable accuracy degradation. We present Krul, a multi-turn LLM inference system that enables accurate and efficient KV cache restoration. Krul dynamically selects compression strategies based on attention similarity across layer pairs and uses a recomputation-loading pipeline to restore the KV cache. It introduces three key innovations: 1) a preemptive compression strategy selector to preserve critical context for future conversation turns and selects a customized strategy for the conversation; 2) a token-wise heterogeneous attention similarity estimator to mitigate the attention similarity computation and storage overhead during model generation; 3) a bubble-free restoration scheduler to reduce potential bubbles brought by the imbalance of recomputing and loading stream due to compressed KV caches. Empirical evaluations on real-world tasks demonstrate that Krul achieves a 1.5x-2.68x reduction in time-to-first-token (TTFT) and a 1.33x-2.35x reduction in KV cache storage compared to state-of-the-art methods without compromising generation quality.
- Abstract(参考訳): 大規模言語モデル(LLM)とのマルチターン会話における効率的な状態復元は、主にすべての歴史的なトークンに対して完全なキー値(KV)キャッシュを再計算またはロードするオーバーヘッドのため、依然として重要な課題である。
これを解決するために、既存のアプローチでは、非常に類似した注意パターンを持つ隣の層にKVキャッシュを圧縮する。
しかし、これらの手法は、全ての会話に対して固定された圧縮スキームを適用し、会話固有の注意力学を考慮せずに、同じ層対を圧縮に選択する。
この静的戦略は、異なる会話間での注意パターンの類似性の変化を見落とし、顕著な精度低下につながる可能性がある。
我々は,KVキャッシュの正確かつ効率的な復元を可能にするマルチターンLDM推論システムであるKrulを提案する。
Krulは層対間の注意類似性に基づいて圧縮戦略を動的に選択し、再計算ローディングパイプラインを使用してKVキャッシュを復元する。
3つの重要なイノベーションを紹介します。
1) 今後の会話における重要な文脈を保存するプリエンプティブ圧縮戦略セレクタであって,対話のためのカスタマイズされた戦略を選択すること。
2 トークン単位の不均一な注意類似度推定器は、モデル生成時の注意類似度計算及び記憶オーバーヘッドを軽減する。
3)圧縮KVキャッシュによる再計算および負荷ストリームの不均衡による潜在的なバブルを低減するバブルフリー復元スケジューラ。
実世界のタスクに関する実証的な評価は、Krulが生成品質を損なうことなく、1.5x-2.68倍のTTFT(time-to-first-token)と1.33x-2.35倍のKVキャッシュストレージを実現していることを示している。
関連論文リスト
- ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [81.81027217759433]
大きな言語モデル(LLM)はキーバリュー(KV)キャッシュを保存するのに必要な過剰なメモリによって制約されることが多い。
近年,KVキャッシュの隠蔽次元の低減について検討されている。
本稿では,KVキャッシュの隠れ次元を削減した後学習KVキャッシュ圧縮手法ReCalKVを提案する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - FlowKV: Enhancing Multi-Turn Conversational Coherence in LLMs via Isolated Key-Value Cache Management [27.734106884226005]
FlowKVはKVキャッシュ管理のための新しいマルチターン分離機構である。
蓄積された圧縮KVキャッシュを過去のターンから保存する。
古い文脈の再圧縮を防ぎ、破滅的な忘れを和らげる。
論文 参考訳(メタデータ) (2025-05-21T10:20:46Z) - KeepKV: Eliminating Output Perturbation in KV Cache Compression for Efficient LLMs Inference [16.53643930310808]
KeepKVは、厳しいメモリ制約下で性能を保ちながら出力摂動を排除するために設計された、新しい適応KVキャッシュマージ手法である。
KeepKVはメモリ使用量を大幅に削減し、推論スループットを2倍以上に向上し、10%のKVキャッシュ予算でも優れた生成品質を維持している。
論文 参考訳(メタデータ) (2025-04-14T06:58:00Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。
KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。
本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文 参考訳(メタデータ) (2024-12-17T09:20:31Z) - EMS: Adaptive Evict-then-Merge Strategy for Head-wise KV Cache Compression Based on Global-Local Importance [44.14919492126948]
メモリオーバーヘッドが重要になるにつれて、KVキャッシュの効率的な圧縮が注目されている。
我々は,これらの制限を克服すると同時に,極端な圧縮比下でのKVキャッシュ圧縮を向上するEMSを提案する。
EMSは最低の難易度を一貫して達成し、256のキャッシュ予算の下でLongBench上の4つのLLMで1.28ポイント以上改善し、Needdle-in-a-Haystackタスクのコンテキスト長の2%未満のキャッシュ予算で95%の検索精度を維持している。
論文 参考訳(メタデータ) (2024-12-11T16:35:13Z) - ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。
本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。
実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-04T10:58:27Z) - Compressing KV Cache for Long-Context LLM Inference with Inter-Layer Attention Similarity [24.118503938098307]
textscPoDはトークンの重要度に応じてメモリを割り当てる。
textscPoDは、パフォーマンスを損なうことなく、KVキャッシュメモリ使用量を最大35%削減する。
論文 参考訳(メタデータ) (2024-12-03T08:29:27Z) - KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。
実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。
我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文 参考訳(メタデータ) (2024-10-24T08:06:41Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - LoCoCo: Dropping In Convolutions for Long Context Compression [77.26610232994508]
本稿では,Long Context Compression(LoCoCo)のための新しいアプローチであるDropping In Convolutionsを提案する。
LoCoCoは、固定サイズキーバリュー(KV)キャッシュのみを使用し、推論と微調整の両方のステージで効率を向上させることができる。
論文 参考訳(メタデータ) (2024-06-08T01:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。