論文の概要: SwiftKV: Fast Prefill-Optimized Inference with Knowledge-Preserving Model Transformation
- arxiv url: http://arxiv.org/abs/2410.03960v3
- Date: Mon, 02 Jun 2025 02:08:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:42.809541
- Title: SwiftKV: Fast Prefill-Optimized Inference with Knowledge-Preserving Model Transformation
- Title(参考訳): SwiftKV:知識保存モデル変換による高速プリフィル最適化推論
- Authors: Aurick Qiao, Zhewei Yao, Samyam Rajbhandari, Yuxiong He,
- Abstract要約: 本稿では,プロンプトトークンのプリフィル計算(FLOP)を削減することを目的とした,新しいモデル変換および蒸留手法であるSwiftKVを提案する。
SwiftKVは、後のレイヤのKVキャッシュを以前のレイヤの出力を使ってプリフィルし、プロンプトトークンが後層のレイヤをスキップできるようにする。
Llama-3.1-70B の 16K トークン/s に変換される正規化推論スループットの 560 TFlops/GPU を実現することができる。
- 参考スコア(独自算出の注目度): 32.62031120968721
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM inference for enterprise applications, such as summarization, RAG, and code-generation, typically observe much longer prompt than generations, leading to high prefill cost and response latency. We present SwiftKV, a novel model transformation and distillation procedure targeted at reducing the prefill compute (in FLOPs) of prompt tokens while preserving high generation quality. First, SwiftKV prefills later layers' KV cache using an earlier layer's output, allowing prompt tokens to skip those later layers. Second, SwiftKV employs a lightweight knowledge-preserving distillation procedure that can adapt existing LLMs with minimal accuracy impact. Third, SwiftKV can naturally incorporate KV cache compression to improve inference performance in low-memory scenarios. Our comprehensive experiments show that SwiftKV can effectively reduce prefill computation by 25-50% across several LLM families while incurring minimum quality degradation. In the end-to-end inference serving, SwiftKV realizes up to 2x higher aggregate throughput and 60% lower time per output token. It can achieve a staggering 560 TFlops/GPU of normalized inference throughput, which translates to 16K tokens/s for Llama-3.1-70B. SwiftKV is open-sourced at https://github.com/snowflakedb/arctictraining.
- Abstract(参考訳): 要約、RAG、コードジェネレーションなどのエンタープライズアプリケーションに対するLLM推論は、一般的に世代よりもずっと長いプロンプトを観測し、高いプリフィルコストとレスポンスレイテンシをもたらす。
我々は,高次品質を維持しつつ,プロンプトトークンのプリフィル計算(FLOP)を削減し,新しいモデル変換および蒸留手法であるSwiftKVを提案する。
まず、SwiftKVは、前のレイヤの出力を使用して、後のレイヤのKVキャッシュをプリフィルし、プロンプトトークンが後層のレイヤをスキップできるようにする。
第二に、SwiftKVは、既存のLLMを最小限の精度で適応できる軽量な知識保存蒸留手順を採用している。
第三に、SwiftKVはKVキャッシュ圧縮を自然に組み込んで、低メモリシナリオにおける推論性能を改善することができる。
我々の総合的な実験は、SwiftKVが最小品質の劣化を招きながら、いくつかのLLMファミリでプリフィル計算を25~50%効果的に削減できることを示している。
エンドツーエンドの推論サービスでは、SwiftKVは最大で2倍高い集約スループットと出力トークン毎の60%低い時間を実現している。
Llama-3.1-70Bの16Kトークン/sに変換される正規化推論スループットの560 TFlops/GPUを実現することができる。
SwiftKVはhttps://github.com/snowflakedb/arctictraining.comでオープンソース化されている。
関連論文リスト
- BitDecoding: Unlocking Tensor Cores for Long-Context LLMs Decoding with Low-Bit KV Cache [5.499460434066963]
BitDecodingは、Coresをアンロックして、低ビットのKVキャッシュで効率的なデコーディングを行うフレームワークである。
A100では7.5倍、A100では4.8倍、H100では8.9倍のスピードアップを実現している。
また、最先端のロービットKVキャッシュ実装(QServe)を最大4.3倍に向上させる。
論文 参考訳(メタデータ) (2025-03-24T15:22:41Z) - KVCrush: Key value cache size-reduction using similarity in head-behaviour [40.792661186062396]
大規模言語モデル(LLM)における推論を高速化する重要な最適化手法としてキーバリューキャッシュ(KV)が登場している。
しかしながら、KVのメモリフットプリントは、モデルのバッチサイズに直接影響を与えるモデルデプロイメントにおいて、大きなボトルネックとなります。
我々は,KVCrushと多くのKV圧縮技術を組み合わせることで,より小さなメモリでモデル精度を向上させることを提案する。
論文 参考訳(メタデータ) (2025-02-24T02:57:51Z) - QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。
これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。
そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文 参考訳(メタデータ) (2025-02-05T20:43:48Z) - ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。
本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。
実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-04T10:58:27Z) - RefreshKV: Updating Small KV Cache During Long-form Generation [54.00118604124301]
生成中の入力トークンのサブセットに対して、完全なコンテキストアテンションとアテンションを柔軟に交互に交互に切り替える新しい推論手法RefreshKVを提案する。
本手法をオフザシェルフ LLM に適用することにより,様々な長文生成タスクの性能を向上しつつ,エビクションベースの手法に匹敵する高速化を実現する。
論文 参考訳(メタデータ) (2024-11-08T18:57:07Z) - ShadowKV: KV Cache in Shadows for High-Throughput Long-Context LLM Inference [25.638980944695728]
ShadowKVは、LLM(Long-Context Large Language Model)推論システムである。
低ランクのキーキャッシュを格納し、バリューキャッシュをオフロードすることで、より大きなバッチサイズと長いシーケンスのためにメモリフットプリントを削減する。
最大6$times$大きなバッチサイズをサポートし、A100 GPUで最大3.04$times$までスループットを向上できる。
論文 参考訳(メタデータ) (2024-10-28T19:08:12Z) - ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification and KV Cache Compression [29.163757099307553]
大型視覚言語モデル(LVLM)のための効率的な推論フレームワークZipVLを提案する。
ZipVLは重要なトークンの動的比割り当て戦略によって計算とメモリのボトルネックを解消する。
実験によると、ZipVLはプリフィルフェーズを2.6$times$で加速し、GPUメモリ使用量を50.0%削減できる。
論文 参考訳(メタデータ) (2024-10-11T07:24:21Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - LoCoCo: Dropping In Convolutions for Long Context Compression [77.26610232994508]
本稿では,Long Context Compression(LoCoCo)のための新しいアプローチであるDropping In Convolutionsを提案する。
LoCoCoは、固定サイズキーバリュー(KV)キャッシュのみを使用し、推論と微調整の両方のステージで効率を向上させることができる。
論文 参考訳(メタデータ) (2024-06-08T01:35:11Z) - MiniCache: KV Cache Compression in Depth Dimension for Large Language Models [48.03117580340151]
キーバリュー(KV)キャッシュは、以前に生成されたトークンのキー値状態を格納する。
KVキャッシュのサイズはシーケンス長とともに線形に増加し、長いコンテキスト入力と広範囲なシーケンス生成を必要とするアプリケーションの課題を提起する。
レイヤ間のKVキャッシュを,新しい奥行きの観点から圧縮する,MiniCacheという,シンプルで効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-23T09:43:52Z) - SKVQ: Sliding-window Key and Value Cache Quantization for Large Language Models [43.22490117833939]
SKVQはスライディングウインドウKVキャッシュ量子化の略である。
SKVQは、量子化グループにおけるチャネルの類似性を改善するために、KVキャッシュのチャネルを再構成する。
7bモデルで80GBのメモリGPU上で最大1Mのコンテキスト長を処理でき、最大7倍高速な復号を行うことができる。
論文 参考訳(メタデータ) (2024-05-10T03:06:24Z) - SnapKV: LLM Knows What You are Looking for Before Generation [22.138577426977907]
SnapKVは、キーバリューキャッシュサイズを効率的に最小化する、微調整不要のアプローチである。
現実世界のアプリケーションで同等のパフォーマンスを提供する。
さらなる研究は、SnapKVの実用的な応用の可能性を示している。
論文 参考訳(メタデータ) (2024-04-22T17:42:58Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。
量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。
我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。