Fugu-MT 論文翻訳(概要): HACK: Homomorphic Acceleration via Compression of the Key-Value Cache for Disaggregated LLM Inference

論文の概要: HACK: Homomorphic Acceleration via Compression of the Key-Value Cache for Disaggregated LLM Inference

arxiv url: http://arxiv.org/abs/2502.03589v1
Date: Wed, 05 Feb 2025 20:09:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-07 15:30:40.518274
Title: HACK: Homomorphic Acceleration via Compression of the Key-Value Cache for Disaggregated LLM Inference
Title（参考訳）: HACK: 分散LDM推論のためのキー値キャッシュ圧縮による同型高速化
Authors: Zeyu Zhang, Haiying Shen, Shay Vargaftik, Ran Ben Basat, Michael Mitzenmacher, Minlan Yu,
Abstract要約: Disaggregated Large Language Model (LLM) 推論は、計算集約型プリフィルステージとメモリ集約型デコードステージを分離する。キーバリュー(KV)データを2つのステージ間で送信することは、特に長いプロンプトにおいてボトルネックとなる可能性がある。分散LDM推論のためのKVキャッシュ(HACK)の圧縮によるホモモルフィック高速化を提案する。
参考スコア（独自算出の注目度）: 24.068304021577358
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Disaggregated Large Language Model (LLM) inference has gained popularity as it separates the computation-intensive prefill stage from the memory-intensive decode stage, avoiding the prefill-decode interference and improving resource utilization. However, transmitting Key-Value (KV) data between the two stages can be a bottleneck, especially for long prompts. Additionally, the computation time overhead for prefill and decode is key for optimizing Job Completion Time (JCT), and KV data size can become prohibitive for long prompts and sequences. Existing KV quantization methods can alleviate the transmission bottleneck and reduce memory requirements, but they introduce significant dequantization overhead, exacerbating the computation time. We propose Homomorphic Acceleration via Compression of the KV cache (HACK) for disaggregated LLM inference. HACK eliminates the heavy KV dequantization step, and directly performs computations on quantized KV data to approximate and reduce the cost of the expensive matrix-multiplication step. Extensive trace-driven experiments show that HACK reduces JCT by up to 70.9% compared to disaggregated LLM inference baseline and by up to 52.3% compared to state-of-the-art KV quantization methods.
Abstract（参考訳）: Disaggregated Large Language Model (LLM) 推論は、計算集約型プリフィルステージとメモリ集約型デコードステージを分離し、プリフィル・デコード干渉を避け、リソース利用を改善することで人気を集めている。しかしながら、2つのステージ間でキーバリュー(KV)データを送信することは、特に長いプロンプトにおいてボトルネックとなる可能性がある。さらに、プリフィルとデコードのための計算時間オーバーヘッドはジョブ完了時間(JCT)を最適化する鍵であり、KVデータサイズは長いプロンプトとシーケンスで禁止される可能性がある。既存のKV量子化法では、伝送ボトルネックを緩和し、メモリ要求を低減できるが、計算時間を大幅に向上させる。分散LDM推論のためのKVキャッシュ(HACK)の圧縮によるホモモルフィック高速化を提案する。 HACKは重いKV量子化ステップを排除し、量子化されたKVデータ上で直接計算を行い、高価な行列乗算ステップのコストを近似し削減する。広範囲にわたるトレース駆動実験により、HACKは、非凝集LDM推論ベースラインと比較して最大で70.9%、最先端KV量子化法と比較して最大で52.3%削減することが示された。

関連論文リスト

Cocktail: Chunk-Adaptive Mixed-Precision Quantization for Long-Context LLM Inference [24.184349246524587]
CocktailはKVキャッシュを最適化するためにチャンク適応型混合精度量子化を採用している。チャンクレベルの量子化探索は、KVキャッシュチャンクの最適ビット幅構成を決定する。 Cocktailは、さまざまなモデルやデータセット上で、最先端のKVキャッシュ量子化手法より優れている。
論文参考訳（メタデータ） (2025-03-30T03:20:34Z)
SVDq: 1.25-bit and 410x Key Cache Compression for LLM Attention [0.0]
KVキャッシュ圧縮技術の主な3つのタイプ、すなわちスパシティ、チャネル圧縮、量子化が同定された。本研究は,Kキャッシュの混合精度定量化法であるSVDqを提案する。
論文参考訳（メタデータ） (2025-02-21T08:55:21Z)
More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
KVプルーニングやKV量子化を含むKV圧縮法は、トークンまたは精度寸法に重点を置いている。量子化プルーニング(quantized pruning)により,KVキャッシュにより多くのトークンを格納することで,LLMの長文性能を大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2024-12-17T09:20:31Z)
ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文参考訳（メタデータ） (2024-12-04T10:58:27Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
Zero-Delay QKV Compression for Mitigating KV Cache and Network Bottlenecks in LLM Inference [11.194752361478567]
大規模言語モデルでは、キー値キャッシュ(KVC)におけるメモリ制約は、特に長いプロンプトで推論中に問題となる。本稿では,ゼロ遅延QKV圧縮システムであるZeroCを提案する。 ZeroCは平均JCTの80%以下、平均パープレキシティの35%以下、そして最先端の圧縮手法に比べて2.8倍高いスループットを実現している。
論文参考訳（メタデータ） (2024-08-07T22:10:26Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
ZipCache: Accurate and Efficient KV Cache Quantization with Salient Token Identification [19.985314022860432]
KVキャッシュは、再計算を避けるために、以前のトークンからキーと値の状態を格納する。 KVキャッシュ圧縮はトークンの正当性を識別し、重要でないトークンを積極的に圧縮しながら重要な情報を保存する。 LLMの高精度かつ効率的なKVキャッシュ量子化手法ZipCacheを提案する。
論文参考訳（メタデータ） (2024-05-23T07:37:16Z)
Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文参考訳（メタデータ） (2024-05-21T08:35:10Z)
Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文参考訳（メタデータ） (2024-02-14T18:54:56Z)
KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。 KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文参考訳（メタデータ） (2024-02-05T06:06:47Z)
KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文参考訳（メタデータ） (2024-01-31T18:58:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。