論文の概要: vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving
- arxiv url: http://arxiv.org/abs/2407.15309v1
- Date: Mon, 22 Jul 2024 14:37:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 16:30:24.190688
- Title: vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving
- Title(参考訳): vTensor: 効率的なLLM実行のためのフレキシブルな仮想テンソル管理
- Authors: Jiale Xu, Rui Zhang, Cong Guo, Weiming Hu, Zihan Liu, Feiyang Wu, Yu Feng, Shixuan Sun, Changxu Shao, Yuhong Guo, Junping Zhao, Ke Zhang, Minyi Guo, Jingwen Leng,
- Abstract要約: 大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
- 参考スコア(独自算出の注目度): 53.972175896814505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are widely used across various domains, processing millions of daily requests. This surge in demand poses significant challenges in optimizing throughput and latency while keeping costs manageable. The Key-Value (KV) cache, a standard method for retaining previous computations, makes LLM inference highly bounded by memory. While batching strategies can enhance performance, they frequently lead to significant memory fragmentation. Even though cutting-edge systems like vLLM mitigate KV cache fragmentation using paged Attention mechanisms, they still suffer from inefficient memory and computational operations due to the tightly coupled page management and computation kernels. This study introduces the vTensor, an innovative tensor structure for LLM inference based on GPU virtual memory management (VMM). vTensor addresses existing limitations by decoupling computation from memory defragmentation and offering dynamic extensibility. Our framework employs a CPU-GPU heterogeneous approach, ensuring efficient, fragmentation-free memory management while accommodating various computation kernels across different LLM architectures. Experimental results indicate that vTensor achieves an average speedup of 1.86x across different models, with up to 2.42x in multi-turn chat scenarios. Additionally, vTensor provides average speedups of 2.12x and 3.15x in kernel evaluation, reaching up to 3.92x and 3.27x compared to SGLang Triton prefix-prefilling kernels and vLLM paged Attention kernel, respectively. Furthermore, it frees approximately 71.25% (57GB) of memory on the NVIDIA A100 GPU compared to vLLM, enabling more memory-intensive workloads.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
この需要の急増は、スループットとレイテンシを最適化し、コストを管理可能にする上で大きな課題となる。
キーバリューキャッシュ(キーバリューキャッシュ、英: Key-Value cache、英: Key-Value cache、KV)は、LLMの推論をメモリで高度に制限する手法である。
バッチ戦略はパフォーマンスを向上させることができるが、しばしばメモリの断片化につながる。
vLLMのような最先端システムは、ページドアテンション機構を使ってKVキャッシュの断片化を緩和するが、ページ管理と計算カーネルが密結合しているため、メモリと計算処理の効率が悪い。
本稿では,GPU仮想メモリ管理(VMM)に基づくLLM推論のための革新的なテンソル構造であるvTensorを紹介する。
vTensorは、メモリのデフラグメンテーションから計算を分離し、動的拡張を提供することによって、既存の制限に対処する。
我々のフレームワークはCPU-GPUヘテロジニアスなアプローチを採用し、異なるLLMアーキテクチャにまたがる様々な計算カーネルを収容しながら、効率的なフラグメンテーションのないメモリ管理を実現している。
実験結果から、vTensorは異なるモデル間で平均1.86倍のスピードアップを実現し、マルチターンチャットシナリオでは最大2.42倍の速度アップを実現している。
さらに、vTensorはカーネル評価において平均2.12xと3.15xのスピードアップを提供し、それぞれSGLang TritonプレフィックスプリフィルカーネルとvLLMページドアテンションカーネルと比較して3.92xと3.27xに達する。
さらに、vLLMと比較してNVIDIA A100 GPUで約71.25%(57GB)のメモリを解放し、より多くのメモリ集約的なワークロードを可能にしている。
関連論文リスト
- Efficient LLM Inference with I/O-Aware Partial KV Cache Recomputation [7.204881999658682]
大規模言語モデル(LLM)の推論は計算的に要求される。
自動回帰デコーディングのコストを削減するため、キーバリュー(KV)キャッシングは中間アクティベーションを格納するために使用される。
KVキャッシュに必要なメモリは急速に増加し、しばしばGPUメモリの容量を超える。
コスト効率のよい代替手段は、KVキャッシュをCPUメモリにオフロードすることであり、これはGPUメモリの圧力を軽減するが、ボトルネックをCPUとGPU間のPCIe接続の限られた帯域にシフトさせる。
論文 参考訳(メタデータ) (2024-11-26T04:03:14Z) - LiVOS: Light Video Object Segmentation with Gated Linear Matching [116.58237547253935]
LiVOSはリニアアテンションによるリニアマッチングを利用する軽量メモリネットワークである。
長くて高解像度のビデオでは、STMベースのメソッドと53%のGPUメモリで一致し、32Gの消費者向けGPU上で4096pの推論をサポートする。
論文 参考訳(メタデータ) (2024-11-05T05:36:17Z) - Efficiently Training 7B LLM with 1 Million Sequence Length on 8 GPUs [24.066283519769968]
大規模言語モデル(LLM)は、よりクリエイティブなアプリケーションを促進するために、拡張コンテキスト長を使用して訓練されている。
本稿では,メモリ管理を微粒化するための新しいフレームワークであるMEMOを提案する。
我々は,MEMOがMegatron-LMやDeepSpeedと比較して平均2.42倍,2.26倍のMFUを達成することを示す。
論文 参考訳(メタデータ) (2024-07-16T18:59:49Z) - vAttention: Dynamic Memory Management for Serving LLMs without PagedAttention [8.20523619534105]
VLLM は KV-cache の動的メモリ割り当てを可能にする PagedAttention を提案した。
PagedAttentionは、KV-cacheのレイアウトを、連続した仮想メモリから連続しない仮想メモリに変更する。
動的KVキャッシュメモリ管理のための新しいアプローチであるvAttentionを提案する。
論文 参考訳(メタデータ) (2024-05-07T16:00:32Z) - Efficient Video Object Segmentation via Modulated Cross-Attention Memory [123.12273176475863]
頻繁なメモリ拡張を必要とせず、時間的滑らかさをモデル化するトランスフォーマーベースの手法MAVOSを提案する。
我々のMAVOSは、単一のV100 GPU上で37フレーム/秒(FPS)で動作しながら、J&Fスコア63.3%を達成する。
論文 参考訳(メタデータ) (2024-03-26T17:59:58Z) - AI and Memory Wall [81.06494558184049]
メモリ帯域幅がデコーダモデルの主要なボトルネックとなることを示す。
私たちは、このメモリ制限を克服するためのモデルアーキテクチャ、トレーニング、デプロイメント戦略の再設計を主張します。
論文 参考訳(メタデータ) (2024-03-21T04:31:59Z) - Efficient Memory Management for Large Language Model Serving with
PagedAttention [44.70922552274376]
大規模言語モデル(LLM)の高スループットサービスには,一度に十分な数の要求が要求される。
既存のシステムでは、各要求のキー値キャッシュ(KVキャッシュ)メモリが巨大で、成長し、動的に縮小するため、苦労している。
本稿では,オペレーティングシステムにおける従来の仮想メモリとページング技術にヒントを得たアテンションアルゴリズムであるPagedAttentionを提案する。
論文 参考訳(メタデータ) (2023-09-12T12:50:04Z) - PowerFusion: A Tensor Compiler with Explicit Data Movement Description
and Instruction-level Graph IR [10.059491353103526]
本稿では,メモリ集約演算子のための高性能コードを生成するテンソルコンパイラであるIntelliGenを提案する。
IntelliGenは計算とデータ移動の最適化の両方を考慮する。
NVIDIA GPU、AMD GPU、Cambricon MLU上でIntelliGenを評価し、平均で1.97x、2.93x、16.91x(1.28x、1.23x、2.31x)までスピードアップした。
論文 参考訳(メタデータ) (2023-07-11T03:17:40Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。