論文の概要: Cachemir: Fully Homomorphic Encrypted Inference of Generative Large Language Model with KV Cache
- arxiv url: http://arxiv.org/abs/2602.11470v1
- Date: Thu, 12 Feb 2026 01:01:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.595585
- Title: Cachemir: Fully Homomorphic Encrypted Inference of Generative Large Language Model with KV Cache
- Title(参考訳): Cachemir: KVキャッシュを用いた生成大言語モデルの完全同型暗号化推論
- Authors: Ye Yu, Yifan Zhou, Yi Chen, Pedro Soto, Wenjie Xiong, Meng Li,
- Abstract要約: Cachemir は KV Cache Accelerated Homomorphic Encrypted LLM Inference Regime である。
Cachemir は CPU 上で MOAI (ICML'25) と THOR (CCS'25) をそれぞれ高速化し,GPU 上で 100 秒未満で Llama-3-8B の出力トークンを生成することを実証した。
- 参考スコア(独自算出の注目度): 15.25568382221441
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative large language models (LLMs) have revolutionized multiple domains. Modern LLMs predominantly rely on an autoregressive decoding strategy, which generates output tokens sequentially and employs a key-value cache (KV cache) to avoid redundant computation. However, the widespread deployment of LLMs has raised serious privacy concerns, as users are feeding all types of data into the model, motivating the development of secure inference frameworks based on fully homomorphic encryption (FHE). A major limitation of existing FHE-based frameworks is their inability to effectively integrate the KV cache, resulting in prohibitively high latency for autoregressive decoding. In this paper, we propose Cachemir, a KV Cache Accelerated Homomorphic Encrypted LLM Inference Regime to overcome this limitation. Cachemir comprises three key technical contributions: 1) a set of novel HE packing algorithms specifically designed to leverage the computational advantages of the KV cache; 2) an interleaved replicated packing algorithm to efficiently compute the vector-matrix multiplications that result from using the KV cache in Transformer linear layers; and 3) an augmented bootstrapping placement strategy that accounts for the KV cache to minimize bootstrapping cost. We demonstrate that Cachemir achieves $48.83\times$ and $67.16\times$ speedup over MOAI (ICML'25) and THOR (CCS'25) respectively on CPU and consumes less than 100 seconds on GPU to generate an output token for Llama-3-8B.
- Abstract(参考訳): 生成型大規模言語モデル(LLM)は複数のドメインに革命をもたらした。
現代のLSMは主に自動回帰復号方式に依存しており、出力トークンを逐次生成し、冗長な計算を避けるためにキー値キャッシュ(KVキャッシュ)を使用する。
しかし、LLMの広範な展開は、ユーザーがモデルにあらゆる種類のデータを供給し、完全に同型暗号化(FHE)に基づいたセキュアな推論フレームワークの開発を動機付けているため、深刻なプライバシー上の懸念を引き起こしている。
既存のFHEベースのフレームワークの大きな制限は、KVキャッシュを効果的に統合できないことである。
本稿では,この制限を克服するために,KVキャッシュ高速化された同型暗号化LLM推論レジームであるCachemirを提案する。
Cachemirは3つの重要な技術コントリビューションから構成されている。
1) KVキャッシュの計算上の利点を活用するために特別に設計された新しいHEパッケージアルゴリズムのセット。
2) トランスフォーマー線形層におけるKVキャッシュを用いたベクトル行列乗算を効率よく計算するインターリーブ複製パッキングアルゴリズム
3) ブートストラップコストを最小限に抑えるため、KVキャッシュを考慮に入れた追加のブートストラップ配置戦略。
Cachemir は CPU 上で MOAI (ICML'25) と THOR (CCS'25) をそれぞれ高速化し,GPU 上で 100 秒未満で Llama-3-8B の出力トークンを生成することを実証した。
関連論文リスト
- PackCache: A Training-Free Acceleration Method for Unified Autoregressive Video Generation via Compact KV-Cache [61.57938553036056]
トレーニング不要なKVキャッシュ管理手法であるPackCacheを導入し,KVキャッシュを3つの協調機構でコンパクト化する。
効率の面では、PackCacheは48フレームの長いシーケンスで1.7-2.2倍のエンドツーエンド生成を高速化する。
論文 参考訳(メタデータ) (2026-01-07T19:51:06Z) - Joint Encoding of KV-Cache Blocks for Scalable LLM Serving [3.3230675313521716]
既存のKV-cache圧縮手法は剛性に依存し、テンソルレイアウトを乱したり、特別な計算を必要とする。
KV-cacheブロックの連成符号化を提案し、要求と入力チャンクに類似したブロックを融合して共有表現を生成する。
これにより、KV-cacheメモリのボトルネックが軽減され、特別なハードウェアを使わずに高コンカレンシー機能をサポートする。
論文 参考訳(メタデータ) (2026-01-06T14:50:58Z) - CXL-SpecKV: A Disaggregated FPGA Speculative KV-Cache for Datacenter LLM Serving [5.216774377033164]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
LLMはキー値(KV)キャッシュの大規模なメモリ要求のため、課題に直面している。
我々は,新しい分散KV-cacheアーキテクチャである textbfCXL-SpecKV を提案する。
論文 参考訳(メタデータ) (2025-12-11T15:40:36Z) - QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。
これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。
そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文 参考訳(メタデータ) (2025-02-05T20:43:48Z) - MPCache: MPC-Friendly KV Cache Eviction for Efficient Private LLM Inference [15.460864137509654]
LLM推論のためのMPCacheと呼ばれる,正確かつMPCに優しいKVキャッシュ消去フレームワークを提案する。
MPCacheは、異なる生成タスク間で、先進的なKVキャッシュ消去ベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-01-12T13:18:04Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Model Tells You Where to Merge: Adaptive KV Cache Merging for LLMs on Long-Context Tasks [21.815661269986425]
KVMergerと呼ばれる新しいKVキャッシュマージ手法を提案し、長文タスクに対して適応的なKVキャッシュ圧縮を実現する。
我々のアプローチは、キー状態が1つのシーケンス内のトークンレベルで高い類似性を示すという興味深い観察にインスパイアされている。
我々は,制約メモリ予算下での長時間コンテキストタスクに対するKVMergerの有効性を示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-07-11T12:50:42Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。