論文の概要: Oaken: Fast and Efficient LLM Serving with Online-Offline Hybrid KV Cache Quantization
- arxiv url: http://arxiv.org/abs/2503.18599v1
- Date: Mon, 24 Mar 2025 11:56:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:33:34.911801
- Title: Oaken: Fast and Efficient LLM Serving with Online-Offline Hybrid KV Cache Quantization
- Title(参考訳): Oaken: オンライン-オフラインハイブリッドKVキャッシュ量子化による高速かつ効率的なLLMの実現
- Authors: Minsu Kim, Seongmin Hong, RyeoWook Ko, Soongyu Choi, Hunjong Lee, Junsoo Kim, Joo-Young Kim, Jongse Park,
- Abstract要約: 我々は,高い精度と高い性能を同時に達成するアクセラレーションソリューションであるOakenを提案する。
Oakenはオンラインとオフラインのハイブリッドアプローチを採用し、オフラインのしきい値を設定して、オンラインの量子化スケールを決定する。
我々の実験によると、256のバッチサイズでは、OakenはA100 GPUよりも最大1.58倍のスループット向上を実現し、最小精度の損失は平均0.54%である。
- 参考スコア(独自算出の注目度): 17.202495171443932
- License:
- Abstract: Modern Large Language Model serving system batches multiple requests to achieve high throughput, while batching attention operations is challenging, rendering memory bandwidth a critical bottleneck. The community relies on high-end GPUs with multiple high-bandwidth memory channels. Unfortunately, HBM's high bandwidth often comes at the expense of limited memory capacity, which reduces core utilization and increases costs. Recent advancements enabling longer contexts for LLMs have substantially increased the key-value cache size, further intensifying the pressures on memory capacity. The literature has explored KV cache quantization techniques, which commonly use low bitwidth for most values, selectively using higher bitwidth for outlier values. While this approach helps achieve high accuracy and low bitwidth simultaneously, it comes with the limitation that cost for online outlier detection is excessively high, negating the advantages. We propose Oaken, an acceleration solution that achieves high accuracy and high performance simultaneously through co-designing algorithm and hardware. To effectively find a sweet spot in the accuracy-performance trade-off space of KV cache quantization, Oaken employs an online-offline hybrid approach, setting outlier thresholds offline, which are then used to determine the quantization scale online. To translate the proposed algorithmic technique into tangible performance gains, Oaken also comes with custom quantization engines and memory management units that can be integrated with any LLM accelerators. We built an Oaken accelerator on top of an LLM accelerator, LPU, and conducted a comprehensive evaluation. Our experiments show that for a batch size of 256, Oaken achieves up to 1.58x throughput improvement over NVIDIA A100 GPU, incurring a minimal accuracy loss of only 0.54\% on average, compared to state-of-the-art KV cache quantization techniques.
- Abstract(参考訳): 最新のLarge Language Modelサービスシステムは、高いスループットを達成するために複数のリクエストをバッチするが、バッチ処理の注意操作は困難であり、メモリ帯域幅は重大なボトルネックとなる。
コミュニティは、複数の高帯域メモリチャネルを持つハイエンドGPUに依存している。
残念なことに、HBMの高帯域幅はメモリ容量の制限を犠牲にするため、コア使用率を低下させ、コストを増大させる。
LLMの長いコンテキストを可能にする最近の進歩は、キー値のキャッシュサイズを大幅に増加させ、さらにメモリ容量に対する圧力を強めている。
文献では、ほとんどの値に低ビット幅を用いるKVキャッシュ量子化手法を探索し、外れ値に高ビット幅を選択的に用いた。
このアプローチは高い精度と低ビット幅を同時に達成するのに役立つが、オンラインの外れ値検出のコストは過度に高く、利点を否定する。
我々は,協調設計アルゴリズムとハードウェアを用いて,高精度かつ高い性能を同時に達成するアクセラレーションソリューションであるOakenを提案する。
KVキャッシュ量子化の精度-パフォーマンストレードオフ空間のスイートスポットを効果的に見つけるために、Oaken氏はオンライン-オフラインハイブリッドアプローチを採用し、アウトリーチ閾値をオフラインに設定し、それをオンラインの量子化スケールを決定する。
提案されたアルゴリズムテクニックを具体的なパフォーマンス向上に変換するために、Oakenはカスタム量子化エンジンとメモリ管理ユニットを備えており、任意のLCMアクセラレータと統合できる。
われわれは,LLMアクセラレータ,LPU上にOakenアクセラレータを構築し,総合的な評価を行った。
我々の実験によると、256のバッチサイズでは、OakenはNVIDIA A100 GPUよりも最大1.58倍のスループット向上を実現しており、最先端のKVキャッシュ量子化技術と比較して、平均して0.54倍の精度の損失しか得られていない。
関連論文リスト
- XKV: Personalized KV Cache Memory Reduction for Long-Context LLM Inference [9.65524177141491]
大規模言語モデル(LLM)推論は出力トークンを1つずつ生成し、多くの冗長な計算に繋がる。
KV-Cacheフレームワークは時間と空間の複雑さを妥協する。
既存の研究では、推論精度に重要でないキャッシュデータの一部を削除することで、メモリ消費を減らすことができる。
各レイヤのキャッシュサイズをパーソナライズしてカスタマイズすることで,メモリの大幅な削減が期待できることを示す。
論文 参考訳(メタデータ) (2024-12-08T11:32:08Z) - ShadowKV: KV Cache in Shadows for High-Throughput Long-Context LLM Inference [25.638980944695728]
ShadowKVは、LLM(Long-Context Large Language Model)推論システムである。
低ランクのキーキャッシュを格納し、バリューキャッシュをオフロードすることで、より大きなバッチサイズと長いシーケンスのためにメモリフットプリントを削減する。
最大6$times$大きなバッチサイズをサポートし、A100 GPUで最大3.04$times$までスループットを向上できる。
論文 参考訳(メタデータ) (2024-10-28T19:08:12Z) - InstInfer: In-Storage Attention Offloading for Cost-Effective Long-Context LLM Inference [10.115950753431528]
大規模言語モデル(LLM)は、生成AIにおいて重要なマイルストーンである。
オフラインLLM推論におけるコンテキスト長とバッチサイズの増加は、キー値(KV)キャッシュのメモリ要求をエスカレートする。
いくつかのコスト効率の良いソリューションは、ホストメモリを利用するか、オフラインの推論シナリオのストレージコストを削減するよう最適化されている。
InstInferは、最も性能クリティカルな計算(つまり、復号フェーズにおける注意)とデータ(すなわちKVキャッシュ)を計算ストレージドライブ(CSD)にオフロードする。
InstInferがロングシーケンス推論のためのスループットを改善
論文 参考訳(メタデータ) (2024-09-08T06:06:44Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Model Tells You Where to Merge: Adaptive KV Cache Merging for LLMs on Long-Context Tasks [21.815661269986425]
KVMergerと呼ばれる新しいKVキャッシュマージ手法を提案し、長文タスクに対して適応的なKVキャッシュ圧縮を実現する。
我々のアプローチは、キー状態が1つのシーケンス内のトークンレベルで高い類似性を示すという興味深い観察にインスパイアされている。
我々は,制約メモリ予算下での長時間コンテキストタスクに対するKVMergerの有効性を示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-07-11T12:50:42Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - QServe: W4A8KV4 Quantization and System Co-design for Efficient LLM Serving [52.31791050376249]
量子化は大規模言語モデル(LLM)の推論を加速させる。
既存のINT4量子化メソッドは、重みや部分和を復号化する場合、実行時の大きなオーバーヘッドに悩まされる。
4ビット重み、8ビットアクティベーション、4ビットKVキャッシュを備えたW4A8KV4量子化アルゴリズムQoQを導入する。
QServeは、Llama-3-8BをA100で1.2倍、L40Sで1.4倍、Qwen-721.5BをA100で2.4倍、L40Sで3.5倍、達成可能な最大機能を改善する。
論文 参考訳(メタデータ) (2024-05-07T17:59:30Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。