論文の概要: CollectiveKV: Decoupling and Sharing Collaborative Information in Sequential Recommendation
- arxiv url: http://arxiv.org/abs/2601.19178v1
- Date: Tue, 27 Jan 2026 04:22:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.167963
- Title: CollectiveKV: Decoupling and Sharing Collaborative Information in Sequential Recommendation
- Title(参考訳): CollectiveKV:シークエンシャルレコメンデーションにおける協調情報の分離と共有
- Authors: Jingyu Li, Zhaocheng Du, Qianhui Zhu, kaiyuan Li, Zhicheng Zhang, Song-Li Wu, Chaolang Li, Pengwen Dai,
- Abstract要約: 異なるユーザ間でのKVシーケンスは、KVにおける協調的な信号の存在を示唆し、大きな類似点を示す。
クロスユーザKV共有機構であるCollective KVを提案する。
提案手法では,KVキャッシュを0.8%まで圧縮し,モデル性能の維持や向上を図る。
- 参考スコア(独自算出の注目度): 34.869032714019504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequential recommendation models are widely used in applications, yet they face stringent latency requirements. Mainstream models leverage the Transformer attention mechanism to improve performance, but its computational complexity grows with the sequence length, leading to a latency challenge for long sequences. Consequently, KV cache technology has recently been explored in sequential recommendation systems to reduce inference latency. However, KV cache introduces substantial storage overhead in sequential recommendation systems, which often have a large user base with potentially very long user history sequences. In this work, we observe that KV sequences across different users exhibit significant similarities, indicating the existence of collaborative signals in KV. Furthermore, we analyze the KV using singular value decomposition (SVD) and find that the information in KV can be divided into two parts: the majority of the information is shareable across users, while a small portion is user-specific. Motivated by this, we propose CollectiveKV, a cross-user KV sharing mechanism. It captures the information shared across users through a learnable global KV pool. During inference, each user retrieves high-dimensional shared KV from the pool and concatenates them with low-dimensional user-specific KV to obtain the final KV. Experiments on five sequential recommendation models and three datasets show that our method can compress the KV cache to only 0.8% of its original size, while maintaining or even enhancing model performance.
- Abstract(参考訳): 逐次レコメンデーションモデルはアプリケーションで広く使われているが、厳しいレイテンシ要件に直面している。
メインストリームモデルはTransformerのアテンション機構を利用してパフォーマンスを向上させるが、その計算複雑性はシーケンスの長さとともに増大し、長いシーケンスのレイテンシーに挑戦する。
その結果、KVキャッシュ技術は、推論遅延を低減するために、シーケンシャルレコメンデーションシステムで最近研究されている。
しかし、KVキャッシュはシーケンシャルレコメンデーションシステムにおいてかなりのストレージオーバーヘッドをもたらす。
そこで本研究では,異なるユーザを対象としたKVシーケンスが,KVにおける協調的な信号の存在を示唆し,その類似性を示す。
さらに、特異値分解(SVD)を用いてKVを分析し、KV内の情報を2つの部分に分けることができる。
そこで我々は,ユーザ間KV共有機構であるCollectiveKVを提案する。
学習可能なグローバルなKVプールを通じて、ユーザ間で共有される情報をキャプチャする。
推論中、各ユーザはプールから高次元共有KVを取得し、それらを低次元ユーザ固有のKVと結合して最終KVを得る。
5つのシーケンシャルレコメンデーションモデルと3つのデータセットの実験により、我々の方法では、KVキャッシュを元のサイズのわずか0.8%まで圧縮できる一方で、モデル性能を維持または強化できることがわかった。
関連論文リスト
- KV-CAR: KV Cache Compression using Autoencoders and KV Reuse in Large Language Models [3.5171501100868876]
KVキャッシュはシーケンス長と埋め込み次元で成長し、しばしばモデル自体のメモリフットプリントを超える。
KV CARは,モデル忠実性を維持しつつ,KVキャッシュストレージを大幅に削減する,統一的で非依存なアーキテクチャフレームワークである。
Wikitext、C4、PIQA、WinograndeデータセットにわたるGPT 2とTinyLLaMAモデルの評価は、KV CARが最大47.85パーセントのKVキャッシュメモリ削減を達成したことを示している。
論文 参考訳(メタデータ) (2025-12-07T08:40:52Z) - G-KV: Decoding-Time KV Cache Eviction with Global Attention [57.47409249054187]
大規模言語モデル(LLM)は複雑なタスクに優れるが、長いシーケンス長のため、計算とメモリの重大な課題に遭遇する。
KVキャッシュ圧縮は推論の効率を大幅に向上させる効果的な手法として登場した。
本稿では,グローバルスコアリング機構を用いたKVキャッシュ消去手法であるG-KVを提案する。
論文 参考訳(メタデータ) (2025-11-29T14:21:33Z) - LouisKV: Efficient KV Cache Retrieval for Long Input-Output Sequences [12.093166735658626]
キーバリュー(KV)キャッシュは、自動回帰モデルにおける冗長な計算の削減に成功している。
メモリオーバーヘッドが大幅に増加し、長時間のシナリオでの実際のデプロイメントが制限される。
既存のKV検索手法は,ページ単位の検索やページ単位の粗いKV管理によって,顕著な効率性と精度のボトルネックに悩まされている。
論文 参考訳(メタデータ) (2025-10-13T11:28:30Z) - KVComp: A High-Performance, LLM-Aware, Lossy Compression Framework for KV Cache [7.019967158501771]
長文生成に最適化された汎用的で効率的なKVキャッシュ管理フレームワークであるKVCompを提案する。
KVCompは、KVキャッシュデータ特性に特化して設計された新しい損失圧縮技術を採用している。
KVCompは,従来の手法に比べて最大83%のメモリ削減率で,平均47%,最大83%の高速化を実現している。
論文 参考訳(メタデータ) (2025-08-30T18:25:19Z) - KeepKV: Eliminating Output Perturbation in KV Cache Compression for Efficient LLMs Inference [16.53643930310808]
KeepKVは、厳しいメモリ制約下で性能を保ちながら出力摂動を排除するために設計された、新しい適応KVキャッシュマージ手法である。
KeepKVはメモリ使用量を大幅に削減し、推論スループットを2倍以上に向上し、10%のKVキャッシュ予算でも優れた生成品質を維持している。
論文 参考訳(メタデータ) (2025-04-14T06:58:00Z) - KV-Distill: Nearly Lossless Learnable Context Compression for LLMs [37.0803484148612]
我々は、長いコンテキストKVキャッシュをはるかに短い表現に蒸留するTransformer圧縮フレームワークであるKV-Distillを紹介する。
KV-Distillは、事前訓練されたモデルに対するパラメータ効率の良い適応器として訓練することができる。
ドメイン固有のコンテキストを微調整することで、下流のパフォーマンスを維持しながら、最大99%の長さを削減できる。
論文 参考訳(メタデータ) (2025-03-13T13:15:28Z) - More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。
KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。
本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文 参考訳(メタデータ) (2024-12-17T09:20:31Z) - SCBench: A KV Cache-Centric Analysis of Long-Context Methods [61.025422435235456]
KVキャッシュ中心の視点から長文の手法を評価するベンチマークであるSCBenchを紹介する。
我々は、Gated Linear RNNsやMamba-Attention Hybridsを含む8つのカテゴリの長期コンテキストソリューションについて、広範なKVキャッシュ中心の分析を行う。
本研究は,O(n)メモリとサブO(n2)プリフィルによるスパース符号化が堅牢に動作する一方で,サブO(n)メモリ手法がマルチターンシナリオに悩まされていることを示す。
論文 参考訳(メタデータ) (2024-12-13T17:59:52Z) - PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [38.732413451399]
ピラミッドKVは新規かつ効果的なKVキャッシュ圧縮法である。
提案手法は,KVキャッシュの12%しか保持せず,完全なKVキャッシュでモデルの性能と一致していることを示す。
Needle-in-a-Haystack実験では、Praamid KVは長文理解の維持において競合する手法より優れている。
論文 参考訳(メタデータ) (2024-06-04T07:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。