Fugu-MT 論文翻訳(概要): FairKV: Balancing Per-Head KV Cache for Fast Multi-GPU Inference

論文の概要: FairKV: Balancing Per-Head KV Cache for Fast Multi-GPU Inference

arxiv url: http://arxiv.org/abs/2502.15804v1
Date: Wed, 19 Feb 2025 06:14:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:55.785919
Title: FairKV: Balancing Per-Head KV Cache for Fast Multi-GPU Inference
Title（参考訳）: FairKV: 高速マルチGPU推論のためのヘッド当たりKVキャッシュのバランシング
Authors: Bingzhe Zhao, Ke Cheng, Aomufei Yuan, Yuxuan Tian, Ruiguang Zhong, Chengchen Hu, Tong Yang, Lian Yu,
Abstract要約: TransformerモデルにおけるKVキャッシュ技術は、メモリ使用量を大幅に増加させ、冗長な計算を減らすことを目的としている。近年、最先端のKVキャッシュ圧縮手法では、各アテンションヘッドのKVキャッシュ予算を動的に調整する不均衡なヘッドアロケーションアルゴリズムが実装されている。本研究では,不均衡なKVキャッシュ圧縮を用いたシステムにおいて,アテンションヘッド間のメモリ使用量を確保するためのFair KVを提案する。
参考スコア（独自算出の注目度）: 11.148691507097341
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: KV cache techniques in Transformer models aim to reduce redundant computations at the expense of substantially increased memory usage, making KV cache compression an important and popular research topic. Recently, state-of-the-art KV cache compression methods implement imbalanced, per-head allocation algorithms that dynamically adjust the KV cache budget for each attention head, achieving excellent performance in single-GPU scenarios. However, we observe that such imbalanced compression leads to significant load imbalance when deploying multi-GPU inference, as some GPUs become overburdened while others remain underutilized. In this paper, we propose FairKV, a method designed to ensure fair memory usage among attention heads in systems employing imbalanced KV cache compression. The core technique of FairKV is Fair-Copying, which replicates a small subset of memory-intensive attention heads across GPUs using data parallelism to mitigate load imbalance. Our experiments on popular models, including LLaMA 70b and Mistral 24b model, demonstrate that FairKV increases throughput by 1.66x compared to standard tensor parallelism inference. Our code will be released as open source upon acceptance.
Abstract（参考訳）: TransformerモデルにおけるKVキャッシュ技術は、メモリ使用量を大幅に増加させ、KVキャッシュ圧縮を重要かつポピュラーな研究トピックにすることを目的としている。近年、最先端のKVキャッシュ圧縮手法では、各アテンションヘッドのKVキャッシュ予算を動的に調整し、シングルGPUシナリオで優れた性能を実現する、不均衡なヘッドアロケーションアルゴリズムが実装されている。しかし、そのような不均衡な圧縮がマルチGPU推論をデプロイする際の負荷不均衡を著しく引き起こすことは、一部のGPUが過大評価される一方、他のGPUは未使用のままである。本論文では,不均衡なKVキャッシュ圧縮を用いたシステムにおいて,注目者間でのメモリ使用量を確保するためのFairKVを提案する。 FairKVのコア技術であるFair-Copyingは、負荷不均衡を軽減するためにデータ並列性を使用して、GPU全体でメモリ集約型アテンションヘッドの小さなサブセットを複製する。 LLaMA 70b や Mistral 24b などの人気モデルを用いた実験により,FairKV のスループットが標準テンソル並列性推定と比較して 1.66 倍向上することを示した。私たちのコードは受け入れ次第、オープンソースとしてリリースされます。

関連論文リスト

PackKV: Reducing KV Cache Memory Footprint through LLM-Aware Lossy Compression [8.427136461713706]
汎用的で効率的なKVキャッシュ管理フレームワークである textbfPackKV を提案する。 PackKVはレイテンシクリティカルとスループットクリティカルの両方の推論シナリオをサポートする。
論文参考訳（メタデータ） (2025-12-30T20:05:32Z)
Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach [9.778764951947016]
マルチモーダルな大言語モデルは、KVキャッシュが入力長に比例して増加するため、かなりの推論オーバーヘッドに悩まされる。既存のマルチモーダルなKVキャッシュ圧縮手法は、キャッシュサイズを減らすためにアテンションスコアに依存している。我々は、周波数領域誘導型、外周KV対応KVキャッシュ圧縮フレームワークであるFlashCacheを提案する。
論文参考訳（メタデータ） (2025-11-20T20:25:34Z)
KV Cache Transform Coding for Compact Storage in LLM Inference [2.20003167536462]
KVTCは、KVキャッシュをコンパクトなオンGPUとオフGPUストレージに圧縮する軽量トランスフォーメーションコーダである。 KVキャッシュの冗長性を活用することで、KVTCは推論と長文の精度を維持しながら最大20$times$圧縮を達成する。我々は、AIME25、LiveCodeBench、GSM8K、MMLU、Qasper、RULER、MATH-500を含むベンチマークで、Llama 3、Mistral NeMo、R1-Qwen 2.5モデルでKVTCをテストする。
論文参考訳（メタデータ） (2025-11-03T18:20:35Z)
CommonKV: Compressing KV Cache with Cross-layer Parameter Sharing [54.34080239841088]
CommonKVは、隣接パラメータ共有による層間KVキャッシュ圧縮のトレーニング不要な方法である。提案手法は,様々な圧縮比で既存の低ランクおよびクロスレイヤーの手法より一貫して優れていることを示す。
論文参考訳（メタデータ） (2025-08-22T06:55:45Z)
HCAttention: Extreme KV Cache Compression via Heterogeneous Attention Computing for LLMs [13.013668526921778]
既存のKVキャッシュ圧縮手法は、メモリが85%以上削減されたときに顕著な性能劣化を示す。我々は、鍵量子化、値オフロード、動的KV消去を統合した異種アテンションフレームワークであるHCAttentionを提案する。また,LongBenchベンチマークを用いて,KVキャッシュメモリのフットプリントを25%に縮めながら,本手法が完全アテンションモデルの精度を維持することを示した。
論文参考訳（メタデータ） (2025-07-26T06:43:14Z)
ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [81.81027217759433]
大きな言語モデル(LLM)はキーバリュー(KV)キャッシュを保存するのに必要な過剰なメモリによって制約されることが多い。近年,KVキャッシュの隠蔽次元の低減について検討されている。本稿では,KVキャッシュの隠れ次元を削減した後学習KVキャッシュ圧縮手法ReCalKVを提案する。
論文参考訳（メタデータ） (2025-05-30T08:49:27Z)
R-KV: Redundancy-aware KV Cache Compression for Reasoning Models [77.84539432982307]
共振モデル(R-KV)のための冗長性を考慮したKVキャッシュ圧縮を提案する。 R-KVはKVキャッシュの10%しか使用せず、完全なKVキャッシュ性能のほぼ100%を保っている。驚くべきことに、R-KVは完全なKVキャッシュ性能の105%を達成し、KVキャッシュの16%を達成している。
論文参考訳（メタデータ） (2025-05-30T02:03:24Z)
LagKV: Lag-Relative Information of the KV Cache Tells Which Tokens Are Important [13.45388421871017]
LagKVはKVの圧縮戦略であり、KV自体の直接の前方比較にのみ依存する。メインストリーム推論プラットフォームに簡単に統合できる、完全に注意を払わないメソッドです。我々の手法は、同じ圧縮比で、注意重みベースのメソッドであるHO$を50ドル以上で上回ります。
論文参考訳（メタデータ） (2025-04-07T03:22:15Z)
DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。これは、残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしそうにない場合に、注意に基づくメトリクスを信号として、プルーニングプロセスを停止させる。提案手法は,メモリ空間を最適化するだけでなく,既存の手法に比べて推論時間を短縮する。
論文参考訳（メタデータ） (2025-02-24T06:33:39Z)
MiniKV: Pushing the Limits of LLM Inference via 2-Bit Layer-Discriminative KV Cache [17.58398289266989]
Mini KVは、KVキャッシュサイズを大幅に削減しつつ、長時間のコンテキストタスクの精度を同時に保持するKVキャッシュ最適化手法である。我々は,Mini KVが86%のKVキャッシュ圧縮比を実現し,98.5%以上の精度を回復し,最先端の手法より優れていることを示す。
論文参考訳（メタデータ） (2024-11-27T06:10:49Z)
KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文参考訳（メタデータ） (2024-10-24T08:06:41Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
UNComp: Uncertainty-Aware Long-Context Compressor for Efficient Large Language Model Inference [38.11539884622708]
UNCompは、隠れた状態とKVキャッシュの両方を適応的に圧縮する不確実性対応圧縮スキームである。本手法は,プリフィル段階で1.6倍の高速化を実現し,KVキャッシュを元のサイズの4.74%に削減する。注目すべきは、ニードル・イン・ア・ヘイスタックのタスクでは、UNCompは元のサイズの9.38%に圧縮された場合でも、フルサイズのKVキャッシュより優れていることである。
論文参考訳（メタデータ） (2024-10-04T02:32:36Z)
CSKV: Training-Efficient Channel Shrinking for KV Cache in Long-Context Scenarios [13.144156413032896]
KVキャッシュ圧縮のための訓練効率の高いチャネルシンキング技術であるCSKVを紹介する。 CSKVは、モデル長文機能を維持しながら、KVキャッシュのメモリオーバーヘッドを80%削減できることを示す。我々の手法は量子化とシームレスに組み合わせることでメモリオーバーヘッドをさらに低減し、最大95%の圧縮比を達成することができる。
論文参考訳（メタデータ） (2024-09-16T17:36:50Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [53.08975547824068]
本研究では,大規模言語モデル(LLM)内の注意に基づく情報フローが,長期的文脈処理のための顕著なパターンによって集約されるかどうかを検討する。観測の結果,LLMは下層に広く注意が散らばっているピラミッド情報ファンリングを通じて情報を集約することがわかった。これらの知見に触発され、我々は新しい効率的なKVキャッシュ圧縮法であるPraamid KVを開発した。
論文参考訳（メタデータ） (2024-06-04T07:51:30Z)
Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [82.08922896531618]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文参考訳（メタデータ） (2023-10-03T05:17:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。