論文の概要: BitDecoding: Unlocking Tensor Cores for Long-Context LLMs with Low-Bit KV Cache
- arxiv url: http://arxiv.org/abs/2503.18773v2
- Date: Thu, 14 Aug 2025 15:37:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 13:42:23.053874
- Title: BitDecoding: Unlocking Tensor Cores for Long-Context LLMs with Low-Bit KV Cache
- Title(参考訳): BitDecoding: 低ビットKVキャッシュによる長期LLMのためのテンソルコアのアンロック
- Authors: Dayou Du, Shijie Cao, Jianyi Cheng, Luo Mai, Ting Cao, Mao Yang,
- Abstract要約: 我々は、低ビットKVキャッシュを備えた新しい長文LLM推論システムBitDecodingを提案する。
BitDecodingはCoresとCores Coresを活用することで、効率的な低ビットのKV-cacheデコーディングを可能にする。
BitDecoding は FP16-v2 上で 7.5x と 4.8x と 8.9x のデコーディングを高速化し、最先端のロービットシステム QLaMA-31-8B を上回る。
- 参考スコア(独自算出の注目度): 7.306651609758117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of long-context Large Language Models (LLMs) amplifies memory and bandwidth demands during autoregressive decoding, as the Key-Value (KV) cache grows with each generated token. Low-bit KV-cache quantization (e.g., 4-bit or 2-bit) can reduce memory footprint while preserving accuracy, but existing systems suffer from slow decoding due to their exclusive reliance on CUDA cores, neglecting Tensor Cores (the primary source of compute on modern GPUs). We present BitDecoding, a new long-context LLM inference system with a low-bit KV cache. BitDecoding enables efficient low-bit KV-cache decoding by cooperatively leveraging CUDA cores and Tensor Cores. It introduces methods for automatically inducing optimized layouts to exploit Tensor Cores, along with warp-level parallelization strategies for dequantization. For unified system support, BitDecoding includes a query transformation module supporting diverse attention variants, a quantization kernel that supports both tensor-wise and channel-wise scaling used in various quantization algorithms with high performance, and a dequantization kernel with a software-defined pipeline to coordinate CUDA and Tensor Cores execution for mixed-precision operations. Evaluated on RTX 4090, A100, and H100, BitDecoding accelerates decoding by up to 7.5x, 4.8x, and 8.9x, respectively, over FP16 FlashDecoding-v2, and surpasses the state-of-the-art low-bit system QServe by up to 4.3x. On LLaMA-3.1-8B with a 128K context, BitDecoding reduces single-batch decoding latency by 3x, showing substantial improvements for long-context generation. The code is available at https://github.com/DD-DuDa/BitDecoding.
- Abstract(参考訳): 長文大言語モデル(LLM)の台頭は、生成したトークンごとにキーバリュー(KV)キャッシュが増大するにつれて、自己回帰デコード中のメモリと帯域幅の要求を増幅する。
低ビットのKVキャッシュ量子化(例:4ビット、または2ビット)は、正確性を維持しながらメモリフットプリントを削減できるが、既存のシステムはCUDAコアへの排他的依存のため、テンソルコア(現代のGPUにおける計算の主源)を無視して、遅延デコードに悩まされている。
我々は、低ビットKVキャッシュを備えた新しい長文LLM推論システムBitDecodingを提案する。
BitDecodingは、CUDAコアとTensorコアを協調的に活用することで、効率的な低ビットKVキャッシュデコーディングを可能にする。
並列化のためのワープレベルの並列化戦略とともに、Tensor Coresを利用するために最適化されたレイアウトを自動的に誘導する手法を導入している。
統一されたシステムサポートのために、BitDecodingには、様々な注目の変種をサポートするクエリ変換モジュール、高性能な様々な量子化アルゴリズムで使用されるテンソルワイズとチャネルワイズの両方をサポートする量子化カーネル、CUDAとテンソルコアの実行を協調するソフトウェア定義のパイプラインを備えた量子化カーネルが含まれる。
RTX 4090、A100、H100で評価され、BitDecodingはFP16 FlashDecoding-v2上で最大7.5倍、4.8倍、8.9倍のデコーディングを加速し、最先端のロービットシステムQServeを最大4.3倍上回る。
128Kのコンテキストを持つLLaMA-3.1-8Bでは、BitDecodingは1バッチのデコード遅延を3倍に減らし、長文生成を大幅に改善した。
コードはhttps://github.com/DD-DuDa/BitDecoding.comで入手できる。
関連論文リスト
- CommVQ: Commutative Vector Quantization for KV Cache Compression [50.37946553931796]
本稿では,長期LLM推論におけるメモリ使用量を大幅に削減するために,CommVQ(CommVQ)を提案する。
まず、KVキャッシュを圧縮するための軽量エンコーダとコードブックを用いた加算量子化を導入する。
提案手法は,RoPE-commutative codebook を用いた加算量子化と低オーバーヘッド化により高い精度を実現する。
論文 参考訳(メタデータ) (2025-06-23T17:50:11Z) - TailorKV: A Hybrid Framework for Long-Context Inference via Tailored KV Cache Optimization [21.229296254354878]
生成型大規模言語モデル(LLM)におけるキーバリューキャッシュは、かなりのメモリオーバーヘッドをもたらす。
既存の作業は、KVキャッシュをオフロードまたは圧縮することで、この負担を軽減する。
本稿では,量子化とオフロードをシームレスに統合するハイブリッド圧縮手法であるTailorKVを提案する。
論文 参考訳(メタデータ) (2025-05-26T07:00:04Z) - 70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float [71.43026659686679]
大規模言語モデル(LLM)は急速に規模を拡大し、リソース制約のあるハードウェアに効率的なデプロイを行う上での課題を生み出している。
圧縮フレームワークであるDynamic-Length Float (DFloat11)を導入し、LLMのサイズを30%削減し、元のモデルと同じビット対ビットの出力を保存する。
論文 参考訳(メタデータ) (2025-04-15T22:38:38Z) - SpeCache: Speculative Key-Value Caching for Efficient Generation of LLMs [44.41154292836592]
我々は,完全なKVキャッシュをオフロードし,各デコードステップでKVペアを動的にフェッチするSpeCacheを提案する。
LongBenchとNeedle-in-a-Haystackベンチマークの実験では、SpeCacheがVRAMの使用を効果的に削減していることが確認されている。
論文 参考訳(メタデータ) (2025-03-20T14:01:56Z) - SVDq: 1.25-bit and 410x Key Cache Compression for LLM Attention [0.0]
KVキャッシュ圧縮技術の主な3つのタイプ、すなわちスパシティ、チャネル圧縮、量子化が同定された。
本研究は,Kキャッシュの混合精度定量化法であるSVDqを提案する。
論文 参考訳(メタデータ) (2025-02-21T08:55:21Z) - RocketKV: Accelerating Long-Context LLM Inference via Two-Stage KV Cache Compression [25.190765258589707]
トレーニング不要なKVキャッシュ圧縮戦略であるRocketKVについて述べる。
第1段階では、入力シーケンストークンに対して粗粒永久KVキャッシュ消去を行う。
第2段階では、微粒のトップkスパースアテンションを行うために、ハイブリッドスパースアテンション方式を採用する。
論文 参考訳(メタデータ) (2025-02-19T19:12:46Z) - QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。
これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。
そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文 参考訳(メタデータ) (2025-02-05T20:43:48Z) - ShadowKV: KV Cache in Shadows for High-Throughput Long-Context LLM Inference [25.638980944695728]
ShadowKVは、LLM(Long-Context Large Language Model)推論システムである。
低ランクのキーキャッシュを格納し、バリューキャッシュをオフロードすることで、より大きなバッチサイズと長いシーケンスのためにメモリフットプリントを削減する。
最大6$times$大きなバッチサイズをサポートし、A100 GPUで最大3.04$times$までスループットを向上できる。
論文 参考訳(メタデータ) (2024-10-28T19:08:12Z) - SwiftKV: Fast Prefill-Optimized Inference with Knowledge-Preserving Model Transformation [32.62031120968721]
Swift KVは、プロンプトトークン処理の時間とコストを削減するために設計されたモデル変換および蒸留手順である。
これはプリフィルの計算要求を50%削減し、KVキャッシュのメモリ要求を62.5%削減する。
16ビット精度でLlama-3.1-70Bの16Kトークン/sに変換する通常の推論スループットの560 TFlops/GPUを実現することができる。
論文 参考訳(メタデータ) (2024-10-04T22:45:26Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - LoCoCo: Dropping In Convolutions for Long Context Compression [77.26610232994508]
本稿では,Long Context Compression(LoCoCo)のための新しいアプローチであるDropping In Convolutionsを提案する。
LoCoCoは、固定サイズキーバリュー(KV)キャッシュのみを使用し、推論と微調整の両方のステージで効率を向上させることができる。
論文 参考訳(メタデータ) (2024-06-08T01:35:11Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。