Fugu-MT 論文翻訳(概要): Zero-Delay QKV Compression for Mitigating KV Cache and Network Bottlenecks in LLM Inference

論文の概要: Zero-Delay QKV Compression for Mitigating KV Cache and Network Bottlenecks in LLM Inference

arxiv url: http://arxiv.org/abs/2408.04107v1
Date: Wed, 7 Aug 2024 22:10:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-09 17:10:20.232106
Title: Zero-Delay QKV Compression for Mitigating KV Cache and Network Bottlenecks in LLM Inference
Title（参考訳）: LLM推論におけるKVキャッシュとネットワークブートネックのゼロ遅延QKV圧縮
Authors: Zeyu Zhang, Haiying Shen,
Abstract要約: 大規模言語モデルでは、キー値キャッシュ(KVC)におけるメモリ制約は、特に長いプロンプトで推論中に問題となる。本稿では,ゼロ遅延QKV圧縮システムであるZeroCを提案する。 ZeroCは平均JCTの80%以下、平均パープレキシティの35%以下、そして最先端の圧縮手法に比べて2.8倍高いスループットを実現している。
参考スコア（独自算出の注目度）: 11.194752361478567
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In large-language models, memory constraints in the key-value cache (KVC) pose a challenge during inference, especially with long prompts. In this work, we observed that compressing KV values is more effective than compressing the model regarding accuracy and job completion time (JCT). However, quantizing KV values and dropping less-important tokens incur significant runtime computational time overhead, delaying JCT. These methods also cannot reduce computation time or high network communication time overhead in sequence-parallelism (SP) frameworks for long prompts. To tackle these issues, based on our insightful observations from experimental analysis, we propose ZeroC, a Zero-delay QKV Compression system that eliminates time overhead and even reduces computation and communication time of the model operations. ZeroC innovatively embeds compression and decompression operations within model operations and adaptively determines compression ratios at a hybrid layer-token level. Further, it enables a communication-efficient SP inference framework. Trace-driven experiments demonstrate that ZeroC achieves up to 80% lower average JCT, 35% lower average perplexity, and 2.8x higher throughput with the same latency compared to state-of-the-art compression methods. ZeroC also reduces the average JCT of current LLM serving systems by up to 91% with the constraint of 0.1 perplexity increase. We open-sourced the code.
Abstract（参考訳）: 大規模言語モデルでは、キー値キャッシュ(KVC)におけるメモリ制約は、特に長いプロンプトで推論中に問題となる。本研究では,KV値の圧縮が,精度とジョブ完了時間(JCT)に関するモデルを圧縮するよりも効果的であることを示した。しかし、KV値の定量化と、重要でないトークンの削減は、JCTを遅延させる重要な実行時の計算時間オーバーヘッドを発生させる。これらの手法は、長いプロンプトのためのシーケンス並列性(SP)フレームワークにおいて、計算時間や高いネットワーク通信時間を削減できない。実験分析から得られた洞察に富んだ観測に基づいて,ゼロ遅延QKV圧縮システムであるZeroCを提案する。 ZeroCは、モデル演算に圧縮と圧縮の操作を革新的に組み込んで、ハイブリッド層-トークンレベルで圧縮比を適応的に決定する。さらに、通信効率のよいSP推論フレームワークを実現する。トレース駆動実験により、ZeroCは平均JCTの80%以下、平均パープレキシティが35%低く、2.8倍高いスループットを達成した。 ZeroCはまた、現在のLLMサービスシステムの平均JCTを最大91%削減する。コードをオープンソースにしました。

関連論文リスト

FAEDKV: Infinite-Window Fourier Transform for Unbiased KV Cache Compression [18.12657364501536]
FAEDKVは、トレーニング不要のKVキャッシュ圧縮フレームワークである。初期の情報と最近の情報の両方を保存している。 LongBenchベンチマークの実験では、FAEDKVは既存のメソッドよりも最大22%優れていた。
論文参考訳（メタデータ） (2025-07-26T18:20:25Z)
KV-Latent: Dimensional-level KV Cache Reduction with Frequency-aware Rotary Positional Embedding [72.12756830560217]
Transformer Decodersをベースとした大規模言語モデル(LLM)が、会話生成AIの選択肢として好まれている。デコーダアーキテクチャの全体的な優位性にもかかわらず、推論中にキーバリューキャッシュが徐々に増加し、主要な効率ボトルネックとなっている。キーバリューベクトル次元を潜在空間にダウンサンプリングすることで、KVキャッシュのフットプリントを大幅に削減し、推論速度を向上させることができる。
論文参考訳（メタデータ） (2025-07-15T12:52:12Z)
ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [81.81027217759433]
大きな言語モデル(LLM)はキーバリュー(KV)キャッシュを保存するのに必要な過剰なメモリによって制約されることが多い。近年,KVキャッシュの隠蔽次元の低減について検討されている。本稿では,KVキャッシュの隠れ次元を削減した後学習KVキャッシュ圧縮手法ReCalKVを提案する。
論文参考訳（メタデータ） (2025-05-30T08:49:27Z)
DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。これは、残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしそうにない場合に、注意に基づくメトリクスを信号として、プルーニングプロセスを停止させる。提案手法は,メモリ空間を最適化するだけでなく,既存の手法に比べて推論時間を短縮する。
論文参考訳（メタデータ） (2025-02-24T06:33:39Z)
HACK: Homomorphic Acceleration via Compression of the Key-Value Cache for Disaggregated LLM Inference [24.068304021577358]
Disaggregated Large Language Model (LLM) 推論は、計算集約型プリフィルステージとメモリ集約型デコードステージを分離する。キーバリュー(KV)データを2つのステージ間で送信することは、特に長いプロンプトにおいてボトルネックとなる可能性がある。分散LDM推論のためのKVキャッシュ(HACK)の圧縮によるホモモルフィック高速化を提案する。
論文参考訳（メタデータ） (2025-02-05T20:09:51Z)
More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。 KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文参考訳（メタデータ） (2024-12-17T09:20:31Z)
EMS: Adaptive Evict-then-Merge Strategy for Head-wise KV Cache Compression Based on Global-Local Importance [44.14919492126948]
メモリオーバーヘッドが重要になるにつれて、KVキャッシュの効率的な圧縮が注目されている。我々は,これらの制限を克服すると同時に,極端な圧縮比下でのKVキャッシュ圧縮を向上するEMSを提案する。 EMSは最低の難易度を一貫して達成し、256のキャッシュ予算の下でLongBench上の4つのLLMで1.28ポイント以上改善し、Needdle-in-a-Haystackタスクのコンテキスト長の2%未満のキャッシュ予算で95%の検索精度を維持している。
論文参考訳（メタデータ） (2024-12-11T16:35:13Z)
Efficient Distributed Training through Gradient Compression with Sparsification and Quantization Techniques [3.6481248057068174]
50倍の圧縮でトップkとDGCを使用するとパフォーマンスが向上し、ベースラインに比べてパープレキシティが最大0.06削減される。通信時間は全ての圧縮法で減少し、トップkとDGCは高い圧縮比で無視できるレベルまで通信を減少させる。
論文参考訳（メタデータ） (2024-12-07T22:55:55Z)
KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文参考訳（メタデータ） (2024-10-24T08:06:41Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
UNComp: Uncertainty-Aware Long-Context Compressor for Efficient Large Language Model Inference [38.11539884622708]
UNCompは、隠れた状態とKVキャッシュの両方を適応的に圧縮する不確実性対応圧縮スキームである。本手法は,プリフィル段階で1.6倍の高速化を実現し,KVキャッシュを元のサイズの4.74%に削減する。注目すべきは、ニードル・イン・ア・ヘイスタックのタスクでは、UNCompは元のサイズの9.38%に圧縮された場合でも、フルサイズのKVキャッシュより優れていることである。
論文参考訳（メタデータ） (2024-10-04T02:32:36Z)
KV-Compress: Paged KV-Cache Compression with Variable Compression Rates per Attention Head [0.8158530638728501]
そこで我々は,PagedAttentionフレームワーク内で連続KVブロックを除去する新しい圧縮手法であるKV-Compressを紹介する。本手法は,Mistral-7B-Instruct-v0.2およびLlama-3.1-8B-InstructのLongBenchにおける圧縮KVの総数を4倍に減らしながら,最先端の性能を実現する。 Llama-3.1-8B-InstructとLlama-3.1-70B-Instruct-FP8の評価は、圧縮速度を最大8倍まで達成し、性能に悪影響を及ぼすことなく、フルキャッシュ性能の90%以上を維持しながら、最大64倍まで向上する。
論文参考訳（メタデータ） (2024-09-30T19:09:13Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
In-Context Former: Lightning-fast Compressing Context for Large Language Model [48.831304302467004]
本稿では,Transformer-based large language model (LLM) の長期入力コンテキストを圧縮する手法を提案する。我々は,単語の埋め込みから情報を集めるために,クロスアテンション機構と少数の学習可能なダイジェストトークンを使用する。実験の結果, 圧縮時のベースライン浮動小数点演算の1/32しか必要とせず, 処理速度を68倍から112倍に向上することがわかった。
論文参考訳（メタデータ） (2024-06-19T15:14:55Z)
LoCoCo: Dropping In Convolutions for Long Context Compression [77.26610232994508]
本稿では,Long Context Compression(LoCoCo)のための新しいアプローチであるDropping In Convolutionsを提案する。 LoCoCoは、固定サイズキーバリュー(KV)キャッシュのみを使用し、推論と微調整の両方のステージで効率を向上させることができる。
論文参考訳（メタデータ） (2024-06-08T01:35:11Z)
ZipCache: Accurate and Efficient KV Cache Quantization with Salient Token Identification [19.985314022860432]
KVキャッシュは、再計算を避けるために、以前のトークンからキーと値の状態を格納する。 KVキャッシュ圧縮はトークンの正当性を識別し、重要でないトークンを積極的に圧縮しながら重要な情報を保存する。 LLMの高精度かつ効率的なKVキャッシュ量子化手法ZipCacheを提案する。
論文参考訳（メタデータ） (2024-05-23T07:37:16Z)
Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文参考訳（メタデータ） (2024-05-21T08:35:10Z)
Communication-Efficient Distributed Learning with Local Immediate Error Compensation [95.6828475028581]
本稿では,局所的即時誤差補償SGD (LIEC-SGD) 最適化アルゴリズムを提案する。 LIEC-SGDは、コンバージェンスレートまたは通信コストのいずれにおいても、以前の研究よりも優れている。
論文参考訳（メタデータ） (2024-02-19T05:59:09Z)
Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文参考訳（メタデータ） (2024-01-15T15:54:54Z)
GraVAC: Adaptive Compression for Communication-Efficient Distributed DL Training [0.0]
分散データ並列(DDP)トレーニングは、複数のデバイスがデータのサブセットをトレーニングし、アップデートを集約してグローバルに共有するモデルを生成することにより、アプリケーション全体のスループットを向上させる。 GraVACは、モデル進捗を評価し、圧縮に関連する情報損失を評価することで、トレーニング全体を通して圧縮係数を動的に調整するフレームワークである。静的圧縮係数を使用するのとは対照的に、GraVACはResNet101、VGG16、LSTMのエンドツーエンドのトレーニング時間をそれぞれ4.32x、1.95x、6.67x削減する。
論文参考訳（メタデータ） (2023-05-20T14:25:17Z)
Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。 52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文参考訳（メタデータ） (2021-05-24T12:07:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。