論文の概要: HierarchicalKV: A GPU Hash Table with Cache Semantics for Continuous Online Embedding Storage
- arxiv url: http://arxiv.org/abs/2603.17168v1
- Date: Tue, 17 Mar 2026 21:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.413794
- Title: HierarchicalKV: A GPU Hash Table with Cache Semantics for Continuous Online Embedding Storage
- Title(参考訳): HierarchicalKV: 継続的オンライン埋め込みストレージのためのキャッシュセマンティクスを備えたGPUハッシュテーブル
- Authors: Haidong Rong, Jiashu Yao, Matthias Langer, Shijie Liu, Li Fan, Dongxin Wang, Jia He, Jinglin Chen, Jiaheng Rang, Julian Qian, Mengyao Xu, Fan Yu, Minseok Lee, Zehuan Wang, Even Oldridge,
- Abstract要約: 従来のハッシュテーブルは、埋め込みテーブルがシングルGPUキャパシティを超えると、挿入キーを全て保存する。
本稿では,最初の汎用ハッシュテーブルライブラリであるHierarchicalKV(HKV)を紹介する。
HKVは4つのコアメカニズムを共同設計する。キー値選択、キャッシュベースの動的デュアル値スコア、トリプルバケット分離である。
- 参考スコア(独自算出の注目度): 12.675175915331627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional GPU hash tables preserve every inserted key -- a dictionary assumption that wastes scarce High Bandwidth Memory (HBM) when embedding tables routinely exceed single-GPU capacity. We challenge this assumption with cache semantics, where policy-driven eviction is a first-class operation. We introduce HierarchicalKV (HKV), the first general-purpose GPU hash table library whose normal full-capacity operating contract is cache-semantic: each full-bucket upsert (update-or-insert) is resolved in place by eviction or admission rejection rather than by rehashing or capacity-induced failure. HKV co-designs four core mechanisms -- cache-line-aligned buckets, in-line score-driven upsert, score-based dynamic dual-bucket selection, and triple-group concurrency -- and uses tiered key-value separation as a scaling enabler beyond HBM. On an NVIDIA H100 NVL GPU, HKV achieves up to 3.9 billion key-value pairs per second (B-KV/s) find throughput, stable across load factors 0.50-1.00 (<5% variation), and delivers 1.4x higher find throughput than WarpCore (the strongest dictionary-semantic GPU baseline at lambda=0.50) and up to 2.6-9.4x over indirection-based GPU baselines. Since its open-source release in October 2022, HKV has been integrated into multiple open-source recommendation frameworks.
- Abstract(参考訳): 従来のGPUハッシュテーブルは、挿入されたキーをすべて保存する -- 埋め込みテーブルが通常、シングルGPUキャパシティを超えると、不足するHigh Bandwidth Memory(HBM)を浪費するという辞書の仮定である。
この仮定は、ポリシー駆動の排除が第一級の操作であるキャッシュセマンティクスによって解決される。
HKV(Hierarchical KV)は、通常のフル容量動作契約がキャッシュセマンティックである最初の汎用GPUハッシュテーブルライブラリである。
HKVは、キャッシュライン整合バケット、インラインスコア駆動のアップサート、スコアベースの動的デュアルバケット選択、トリプルグループ並列という4つのコアメカニズムを共同設計し、HBMを超えるスケーリングイネーブラーとして、階層キー値分離を使用する。
NVIDIA H100 NVL GPU上では、HKVは毎秒最大390億のキー値ペア(B-KV/s)の探索スループットを実現し、負荷係数 0.50-1.00 (<5%の変動)で安定し、WarpCore(ラムダ=0.50で最強の辞書シーケンスGPUベースライン)よりも1.4倍高い探索スループットを、間接ベースGPUベースラインで2.6-9.4倍まで提供する。
2022年10月のオープンソースリリース以来、HKVは複数のオープンソースレコメンデーションフレームワークに統合されている。
関連論文リスト
- Joint Encoding of KV-Cache Blocks for Scalable LLM Serving [3.3230675313521716]
既存のKV-cache圧縮手法は剛性に依存し、テンソルレイアウトを乱したり、特別な計算を必要とする。
KV-cacheブロックの連成符号化を提案し、要求と入力チャンクに類似したブロックを融合して共有表現を生成する。
これにより、KV-cacheメモリのボトルネックが軽減され、特別なハードウェアを使わずに高コンカレンシー機能をサポートする。
論文 参考訳(メタデータ) (2026-01-06T14:50:58Z) - CLO: Efficient LLM Inference System with CPU-Light KVCache Offloading via Algorithm-System Co-Design [27.03446161229998]
アルゴリズム・システム共同設計によるCPUライトKVCacheオフロードシステムであるCLOを提案する。
CLOは最先端システムと同等の精度を実現し、CPUオーバーヘッドを大幅に最小化する。
論文 参考訳(メタデータ) (2025-11-18T14:03:21Z) - Spotlight Attention: Towards Efficient LLM Generation via Non-linear Hashing-based KV Cache Retrieval [67.21678698740267]
本研究では,クエリやキーの埋め込み分布を最適化するために,非線形ハッシュ関数を利用する新しい手法であるSpotlight Attentionを紹介する。
また、Bradley-Terryランキングに基づく損失を利用して、軽量で安定したトレーニングフレームワークを開発する。
論文 参考訳(メタデータ) (2025-08-27T10:11:27Z) - HCAttention: Extreme KV Cache Compression via Heterogeneous Attention Computing for LLMs [13.013668526921778]
既存のKVキャッシュ圧縮手法は、メモリが85%以上削減されたときに顕著な性能劣化を示す。
我々は、鍵量子化、値オフロード、動的KV消去を統合した異種アテンションフレームワークであるHCAttentionを提案する。
また,LongBenchベンチマークを用いて,KVキャッシュメモリのフットプリントを25%に縮めながら,本手法が完全アテンションモデルの精度を維持することを示した。
論文 参考訳(メタデータ) (2025-07-26T06:43:14Z) - CAT: A GPU-Accelerated FHE Framework with Its Application to High-Precision Private Dataset Query [0.51795041186793]
本稿では,オープンソースGPUアクセラレーションによる完全同型暗号(FHE)フレームワークCATを紹介する。
emphCATは、コア数学の基礎、事前計算された要素と複合操作のブリッジ、FHE演算子のAPIアクセス可能なレイヤという3層アーキテクチャを備えている。
本フレームワークでは,CKKS,BFV,BGVの3種類のFHEスキームを実装した。
論文 参考訳(メタデータ) (2025-03-28T08:20:18Z) - SCBench: A KV Cache-Centric Analysis of Long-Context Methods [61.025422435235456]
KVキャッシュ中心の視点から長文の手法を評価するベンチマークであるSCBenchを紹介する。
我々は、Gated Linear RNNsやMamba-Attention Hybridsを含む8つのカテゴリの長期コンテキストソリューションについて、広範なKVキャッシュ中心の分析を行う。
本研究は,O(n)メモリとサブO(n2)プリフィルによるスパース符号化が堅牢に動作する一方で,サブO(n)メモリ手法がマルチターンシナリオに悩まされていることを示す。
論文 参考訳(メタデータ) (2024-12-13T17:59:52Z) - Compute Or Load KV Cache? Why Not Both? [6.982874528357836]
Cakeは計算資源とI/Oリソースを並列に最適に利用する新しいKVキャッシュローディングシステムである。
Cakeは、計算のみの手法やI/Oのみの手法と比較して、TTFT(Time to First Token)の平均2.6倍の削減を実現している。
論文 参考訳(メタデータ) (2024-10-04T01:11:09Z) - ASH: A Modern Framework for Parallel Spatial Hashing in 3D Perception [91.24236600199542]
ASHは、GPU上の並列空間ハッシュのためのモダンで高性能なフレームワークである。
ASHはより高いパフォーマンスを実現し、よりリッチな機能をサポートし、より少ないコード行を必要とする。
ASHとそのサンプルアプリケーションはOpen3Dでオープンソース化されている。
論文 参考訳(メタデータ) (2021-10-01T16:25:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。