論文の概要: SemShareKV: Efficient KVCache Sharing for Semantically Similar Prompts via Token-Level LSH Matching
- arxiv url: http://arxiv.org/abs/2509.24832v1
- Date: Mon, 29 Sep 2025 14:16:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.041784
- Title: SemShareKV: Efficient KVCache Sharing for Semantically Similar Prompts via Token-Level LSH Matching
- Title(参考訳): SemShareKV:Token-Level LSHマッチングによるSemantically Like Promptsの効率的なKVキャッシュ共有
- Authors: Xinye Zhao, Spyridon Mastorakis,
- Abstract要約: 大規模言語モデル(LLM)のためのKVキャッシュ共有圧縮フレームワークである textitSemShareKV を提案する。
正確なトークンマッチに頼る代わりに、SemShareKVは、トークン埋め込みにローカリティ感受性ハッシュ(LSH)を使用してファジィトークンマッチングを適用し、位置情報をよりよく保存するためにロータリー位置埋め込み(Rotary Position Embedding、RoPE)を組み込んでいる。
多様な要約データセットの実験では、最大6.25$times$スピードアップと42%低いGPUメモリ使用率で5kトークンが入力され、品質劣化は無視できる。
- 参考スコア(独自算出の注目度): 0.8307668828380427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) continue to scale, the memory footprint of key-value (KV) caches during inference has become a significant bottleneck. Existing approaches primarily focus on compressing KV caches within a single prompt or reusing shared prefixes or frequently ocurred text segments across prompts. However, such strategies are limited in scenarios where prompts are semantically similar but lexically different, which frequently occurs in tasks such as multi-document summarization and conversational agents. We propose \textit{SemShareKV}, a KV cache sharing and compression framework that accelerates LLM inference by reusing KVCache in semantically similar prompts. Instead of relying on exact token matches, SemShareKV applies fuzzy token matching using locality-sensitive hashing (LSH) on token embeddings and incorporates Rotary Position Embedding (RoPE) to better preserve positional information. By selectively reusing relevant key-value pairs from a reference prompt's cache, SemShareKV reduces redundant computation while maintaining output quality. Experiments on diverse summarization datasets show up to 6.25$\times$ speedup and 42\% lower GPU memory usage with 5k tokens input, with negligible quality degradation. These results highlight the potential of semantic-aware cache sharing for efficient LLM inference.
- Abstract(参考訳): 大規模言語モデル(LLM)のスケールアップが進むにつれて、推論中のキー値(KV)キャッシュのメモリフットプリントが重大なボトルネックとなっている。
既存のアプローチは、主に1つのプロンプト内でKVキャッシュを圧縮したり、共有プレフィックスを再利用したり、プロンプトをまたいだ頻繁に再帰されたテキストセグメントにフォーカスする。
しかし、このような戦略は意味論的に類似しているが語彙的に異なるシナリオにおいて限られており、多文書要約や会話エージェントといったタスクで頻繁に発生する。
我々は,KVキャッシュを意味的に類似したプロンプトで再利用することにより,LLM推論を高速化するKVキャッシュ共有圧縮フレームワークである‘textit{SemShareKV} を提案する。
正確なトークンマッチに頼る代わりに、SemShareKVは、トークン埋め込みにローカリティ感受性ハッシュ(LSH)を使用してファジィトークンマッチングを適用し、位置情報をよりよく保存するためにロータリー位置埋め込み(Rotary Position Embedding、RoPE)を組み込んでいる。
参照プロンプトのキャッシュから関連するキーと値のペアを選択的に再利用することで、SemShareKVは出力品質を維持しながら冗長な計算を減らす。
さまざまな要約データセットの実験では、最大6.25$\times$スピードアップと5kトークン入力による低いGPUメモリ使用率42\%で、品質劣化が無視できる。
これらの結果は,効率的なLLM推論のためのセマンティック・アウェア・キャッシュ共有の可能性を強調した。
関連論文リスト
- DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - KVLink: Accelerating Large Language Models via Efficient KV Cache Reuse [35.97391418064724]
KVLinkは、大規模言語モデル(LLM)における効率的なキー値(KV)キャッシュ再利用のためのアプローチである。
KVLinkは、連結後のグローバルな位置と一致するように、推論時にKVキャッシュの位置埋め込みを調整することと、自己注意を回復するためにトレーニング可能な特別なトークンを使用することである。
7つのデータセットにわたる実験によると、KVLinkは最先端の手法よりも平均4%の精度で質問応答を改善する。
論文 参考訳(メタデータ) (2025-02-21T23:34:29Z) - ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference [28.96662510838151]
セマンティックチャンクを基本圧縮単位として扱うことにより,KVキャッシュの圧縮を再現するChunkKVを提案する。
このアプローチは完全な言語構造と文脈整合性を保持し、攻撃的な圧縮の下でも本質的な意味が維持されることを保証する。
ChunkKVは、同じ圧縮比を維持しながら8.7%の精度で最先端の手法より優れている。
論文 参考訳(メタデータ) (2025-02-01T03:49:47Z) - SCBench: A KV Cache-Centric Analysis of Long-Context Methods [61.025422435235456]
KVキャッシュ中心の視点から長文の手法を評価するベンチマークであるSCBenchを紹介する。
我々は、Gated Linear RNNsやMamba-Attention Hybridsを含む8つのカテゴリの長期コンテキストソリューションについて、広範なKVキャッシュ中心の分析を行う。
本研究は,O(n)メモリとサブO(n2)プリフィルによるスパース符号化が堅牢に動作する一方で,サブO(n)メモリ手法がマルチターンシナリオに悩まされていることを示す。
論文 参考訳(メタデータ) (2024-12-13T17:59:52Z) - Compressing KV Cache for Long-Context LLM Inference with Inter-Layer Attention Similarity [24.118503938098307]
textscPoDはトークンの重要度に応じてメモリを割り当てる。
textscPoDは、パフォーマンスを損なうことなく、KVキャッシュメモリ使用量を最大35%削減する。
論文 参考訳(メタデータ) (2024-12-03T08:29:27Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。