Fugu-MT 論文翻訳(概要): BitDecoding: Unlocking Tensor Cores for Long-Context LLMs Decoding with Low-Bit KV Cache

論文の概要: BitDecoding: Unlocking Tensor Cores for Long-Context LLMs Decoding with Low-Bit KV Cache

arxiv url: http://arxiv.org/abs/2503.18773v1
Date: Mon, 24 Mar 2025 15:22:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-25 16:32:17.339489
Title: BitDecoding: Unlocking Tensor Cores for Long-Context LLMs Decoding with Low-Bit KV Cache
Title（参考訳）: BitDecoding: 低ビットKVキャッシュによる長期LLMデコードのためのテンソルコアのアンロック
Authors: Dayou Du, Shijie Cao, Jianyi Cheng, Ting Cao, Mao Yang,
Abstract要約: BitDecodingは、Coresをアンロックして、低ビットのKVキャッシュで効率的なデコーディングを行うフレームワークである。 A100では7.5倍、A100では4.8倍、H100では8.9倍のスピードアップを実現している。また、最先端のロービットKVキャッシュ実装(QServe)を最大4.3倍に向上させる。
参考スコア（独自算出の注目度）: 5.499460434066963
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The growing adoption of long-context Large Language Models (LLMs) has introduced significant memory and computational challenges in autoregressive decoding due to the expanding Key-Value (KV) cache. KV cache quantization has emerged as a promising solution, with prior work showing that 4-bit or even 2-bit quantization can maintain model accuracy while reducing memory costs. However, despite these benefits, preliminary implementations for the low-bit KV cache struggle to deliver the expected speedup due to quantization and dequantization overheads and the lack of Tensor Cores utilization. In this work, we propose BitDecoding, a GPU-optimized framework that unlocks Tensor Cores for efficient decoding with low-bit KV cache. Efficiently leveraging Tensor Cores for low-bit KV cache is challenging due to the dynamic nature of KV cache generation at each decoding step. BitDecoding addresses these challenges with a Tensor Cores-Centric BitFusion Scheme that ensures data layout compatibility to enable high utilization of Tensor Cores. Additionally, BitDecoding incorporates a warp-efficient parallel decoding kernel and a fine-grained asynchronous pipeline, minimizing dequantization overhead and improving computational efficiency. Experiments show that BitDecoding achieves up to 7.5x speedup on RTX 4090, 4.8x on A100, and 8.9x on H100, compared to FP16 FlashDecoding-v2. It also outperforms the state-of-the-art low-bit KV cache implementation (QServe) by up to 4.3x. On LLaMA-3.1-8B with a 128K sequence length, BitDecoding reduces single-batch decoding latency by 3x, demonstrating its effectiveness in long-context generation scenarios. The code is available at https://github.com/DD-DuDa/BitDecoding.
Abstract（参考訳）: LLM(Long-context Large Language Models)の採用が増加し、キーバリュー(KV)キャッシュの拡大による自動回帰デコーディングにおいて、メモリと計算上の大きな課題がもたらされた。 KVキャッシュ量子化は、メモリコストを削減しつつ、4ビットまたは2ビットの量子化でもモデルの精度を維持することができることを示す以前の研究によって、有望なソリューションとして登場した。しかしながら、これらの利点にもかかわらず、低ビットのKVキャッシュの予備実装は、量子化と量子化のオーバーヘッドとTensor Cores利用の欠如により、期待されるスピードアップを実現するのに苦労している。本研究では、低ビットKVキャッシュを用いた効率的なデコーディングのためにTensor CoresをアンロックするGPU最適化フレームワークであるBitDecodingを提案する。低ビットKVキャッシュにTensor Coresを効果的に活用することは、各デコードステップにおけるKVキャッシュ生成の動的性質のために難しい。 BitDecodingは、Tensor Cores-Centric BitFusion Schemeを使用してこれらの課題に対処する。さらに、BitDecodingにはワープ効率のよい並列デコードカーネルと微細な非同期パイプラインが組み込まれており、復号化オーバーヘッドを最小限に抑え、計算効率を向上させる。実験の結果、BitDecodingはRTX 4090では7.5倍、A100では4.8倍、H100では8.9倍、FP16 FlashDecoding-v2では8.9倍のスピードアップを達成した。また、最先端のロービットKVキャッシュ実装(QServe)を最大4.3倍に向上させる。 128Kのシーケンス長を持つLLaMA-3.1-8Bでは、BitDecodingは1バッチのデコード遅延を3倍に減らし、長文生成シナリオでの有効性を示す。コードはhttps://github.com/DD-DuDa/BitDecoding.comで入手できる。

関連論文リスト

70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float [71.43026659686679]
大規模言語モデル(LLM)は急速に規模を拡大し、リソース制約のあるハードウェアに効率的なデプロイを行う上での課題を生み出している。圧縮フレームワークであるDynamic-Length Float (DFloat11)を導入し、LLMのサイズを30%削減し、元のモデルと同じビット対ビットの出力を保存する。
論文参考訳（メタデータ） (2025-04-15T22:38:38Z)
SpeCache: Speculative Key-Value Caching for Efficient Generation of LLMs [44.41154292836592]
我々は,完全なKVキャッシュをオフロードし,各デコードステップでKVペアを動的にフェッチするSpeCacheを提案する。 LongBenchとNeedle-in-a-Haystackベンチマークの実験では、SpeCacheがVRAMの使用を効果的に削減していることが確認されている。
論文参考訳（メタデータ） (2025-03-20T14:01:56Z)
SVDq: 1.25-bit and 410x Key Cache Compression for LLM Attention [0.0]
KVキャッシュ圧縮技術の主な3つのタイプ、すなわちスパシティ、チャネル圧縮、量子化が同定された。本研究は,Kキャッシュの混合精度定量化法であるSVDqを提案する。
論文参考訳（メタデータ） (2025-02-21T08:55:21Z)
QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文参考訳（メタデータ） (2025-02-05T20:43:48Z)
ShadowKV: KV Cache in Shadows for High-Throughput Long-Context LLM Inference [25.638980944695728]
ShadowKVは、LLM(Long-Context Large Language Model)推論システムである。低ランクのキーキャッシュを格納し、バリューキャッシュをオフロードすることで、より大きなバッチサイズと長いシーケンスのためにメモリフットプリントを削減する。最大6$times$大きなバッチサイズをサポートし、A100 GPUで最大3.04$times$までスループットを向上できる。
論文参考訳（メタデータ） (2024-10-28T19:08:12Z)
SwiftKV: Fast Prefill-Optimized Inference with Knowledge-Preserving Model Transformation [32.62031120968721]
Swift KVは、プロンプトトークン処理の時間とコストを削減するために設計されたモデル変換および蒸留手順である。これはプリフィルの計算要求を50%削減し、KVキャッシュのメモリ要求を62.5%削減する。 16ビット精度でLlama-3.1-70Bの16Kトークン/sに変換する通常の推論スループットの560 TFlops/GPUを実現することができる。
論文参考訳（メタデータ） (2024-10-04T22:45:26Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
LoCoCo: Dropping In Convolutions for Long Context Compression [77.26610232994508]
本稿では,Long Context Compression(LoCoCo)のための新しいアプローチであるDropping In Convolutionsを提案する。 LoCoCoは、固定サイズキーバリュー(KV)キャッシュのみを使用し、推論と微調整の両方のステージで効率を向上させることができる。
論文参考訳（メタデータ） (2024-06-08T01:35:11Z)
Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文参考訳（メタデータ） (2024-02-14T18:54:56Z)
KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。 KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文参考訳（メタデータ） (2024-02-05T06:06:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。