論文の概要: SemantiCache: Efficient KV Cache Compression via Semantic Chunking and Clustered Merging
- arxiv url: http://arxiv.org/abs/2603.14303v1
- Date: Sun, 15 Mar 2026 09:36:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.733624
- Title: SemantiCache: Efficient KV Cache Compression via Semantic Chunking and Clustered Merging
- Title(参考訳): SemantiCache: セマンティックチャンキングとクラスタリングによる効率的なKVキャッシュ圧縮
- Authors: Shunlong Wu, Hai Lin, Shaoshen Chen, Tingwei Lu, Yongqin Zeng, Shaoxiong Zhan, Hai-Tao Zheng, Hong-Gee Kim,
- Abstract要約: SemantiCacheはセマンティックな整合性を維持する新しい圧縮フレームワークである。
まず、キャッシュを意味的に一貫性のあるチャンクに分割します。
各チャンク内には,トークンをセマンティッククラスタにグループ化するGreedy Seed-Based Clustering (GSC)アルゴリズムが導入されている。
これらのクラスタはさらにセマンティックコアにマージされ、Proportional Attentionメカニズムによって強化される。
- 参考スコア(独自算出の注目度): 14.82266992933174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing KV cache compression methods generally operate on discrete tokens or non-semantic chunks. However, such approaches often lead to semantic fragmentation, where linguistically coherent units are disrupted, causing irreversible information loss and degradation in model performance. To address this, we introduce SemantiCache, a novel compression framework that preserves semantic integrity by aligning the compression process with the semantic hierarchical nature of language. Specifically, we first partition the cache into semantically coherent chunks by delimiters, which are natural semantic boundaries. Within each chunk, we introduce a computationally efficient Greedy Seed-Based Clustering (GSC) algorithm to group tokens into semantic clusters. These clusters are further merged into semantic cores, enhanced by a Proportional Attention mechanism that rebalances the reduced attention contributions of the merged tokens. Extensive experiments across diverse benchmarks and models demonstrate that SemantiCache accelerates the decoding stage of inference by up to 2.61 times and substantially reduces memory footprint, while maintaining performance comparable to the original model.
- Abstract(参考訳): 既存のKVキャッシュ圧縮手法は一般に離散トークンや非意味チャンクで動作する。
しかし、そのようなアプローチはしばしば意味的断片化を引き起こし、言語的に一貫性のある単位が破壊され、不可逆的な情報損失とモデル性能の低下を引き起こす。
これを解決するために,セマンティキャッシュを紹介した。セマンティキャッシュは,セマンティックな階層的な言語の性質と圧縮プロセスの整合性を維持することで意味的整合性を維持する新しい圧縮フレームワークである。
具体的には、まずキャッシュを、自然なセマンティック境界であるデリミタによってセマンティックコヒーレントなチャンクに分割する。
各チャンク内で,トークンをセマンティッククラスタにグループ化する,計算効率のよいGreedy Seed-Based Clustering (GSC)アルゴリズムを導入する。
これらのクラスタはさらにセマンティックコアにマージされ、マージされたトークンの注目度を減少させるReportional Attentionメカニズムによって強化される。
様々なベンチマークやモデルにわたる大規模な実験により、SemantiCacheは推論の復号段階を最大2.61倍に加速し、メモリフットプリントを大幅に削減し、元のモデルに匹敵する性能を維持している。
関連論文リスト
- LycheeCluster: Efficient Long-Context Inference with Structure-Aware Chunking and Hierarchical KV Indexing [29.284917403504352]
効率的なKVキャッシュ管理のための新しい手法であるLycheeClusterを提案する。
LycheeClusterは境界対応のチャンキングを通じて局所的な意味的コヒーレンスを保持し、三角形の不等式に根ざした階層的指数を構成する。
実験により、LycheeClusterはモデル性能の無視可能な劣化を伴う、最大3.6倍のエンドツーエンドの推論スピードアップを達成することが示された。
論文 参考訳(メタデータ) (2026-03-09T14:50:35Z) - PackCache: A Training-Free Acceleration Method for Unified Autoregressive Video Generation via Compact KV-Cache [61.57938553036056]
トレーニング不要なKVキャッシュ管理手法であるPackCacheを導入し,KVキャッシュを3つの協調機構でコンパクト化する。
効率の面では、PackCacheは48フレームの長いシーケンスで1.7-2.2倍のエンドツーエンド生成を高速化する。
論文 参考訳(メタデータ) (2026-01-07T19:51:06Z) - CommonKV: Compressing KV Cache with Cross-layer Parameter Sharing [54.34080239841088]
CommonKVは、隣接パラメータ共有による層間KVキャッシュ圧縮のトレーニング不要な方法である。
提案手法は,様々な圧縮比で既存の低ランクおよびクロスレイヤーの手法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-08-22T06:55:45Z) - Hierarchical Semantic Compression for Consistent Image Semantic Restoration [62.97519327310638]
生成モデルから固有意味空間内で純粋に機能する新しい階層意味圧縮(HSC)フレームワークを提案する。
実験の結果,提案したHSCフレームワークは人間の視力に対する主観的品質と一貫性に関する最先端の性能を実現することが示された。
論文 参考訳(メタデータ) (2025-02-24T03:20:44Z) - ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference [61.412894960600205]
大きな言語モデル(LLM)は、長いテキストを処理する際に大きなGPUメモリを必要とする。
ChunkKVは、セマンティックチャンクを基本的な圧縮単位として扱うことで、KVキャッシュ圧縮を再定義する。
結果: ChunkKVは最先端の手法を最大8.7%精度で上回る。
論文 参考訳(メタデータ) (2025-02-01T03:49:47Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。