論文の概要: Pie: Pooling CPU Memory for LLM Inference
- arxiv url: http://arxiv.org/abs/2411.09317v1
- Date: Thu, 14 Nov 2024 09:50:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:23:34.999340
- Title: Pie: Pooling CPU Memory for LLM Inference
- Title(参考訳): Pie: LLM推論のためのCPUメモリのポーリング
- Authors: Yi Xu, Ziming Mao, Xiangxi Mo, Shu Liu, Ion Stoica,
- Abstract要約: 本稿では,パフォーマンス・透明なスワップや適応的拡張といった課題に対処するLLM推論フレームワークであるPieを紹介する。
容量が拡張されたことにより、PieはvLLMのスループットを最大1.9倍、レイテンシを2倍に向上させた。
- 参考スコア(独自算出の注目度): 30.992729863455803
- License:
- Abstract: The rapid growth of LLMs has revolutionized natural language processing and AI analysis, but their increasing size and memory demands present significant challenges. A common solution is to spill over to CPU memory; however, traditional GPU-CPU memory swapping often results in higher latency and lower throughput. This paper introduces Pie, an LLM inference framework that addresses these challenges with performance-transparent swapping and adaptive expansion. By leveraging predictable memory access patterns and the high bandwidth of modern hardware like the NVIDIA GH200 Grace Hopper Superchip, Pie enables concurrent data swapping without affecting foreground computation, expanding effective memory without added latency. Adaptive expansion dynamically adjusts CPU memory allocation based on real-time information, optimizing memory usage and performance under varying conditions. Pie maintains low computation latency, high throughput, and high elasticity. Our experimental evaluation demonstrates that Pie achieves optimal swapping policy during cache warmup and effectively balances increased memory capacity with negligible impact on computation. With its extended capacity, Pie outperforms vLLM by up to 1.9X in throughput and 2X in latency. Additionally, Pie can reduce GPU memory usage by up to 1.67X while maintaining the same performance. Compared to FlexGen, an offline profiling-based swapping solution, Pie achieves magnitudes lower latency and 9.4X higher throughput.
- Abstract(参考訳): LLMの急速な成長は自然言語処理とAI分析に革命をもたらしたが、そのサイズとメモリの増大は大きな課題を呈している。
一般的な解決策は、CPUメモリにこぼすことだが、従来のGPU-CPUメモリスワップは、しばしばレイテンシとスループットの低下をもたらす。
本稿では,これらの課題に対処するLLM推論フレームワークであるPieを紹介する。
予測可能なメモリアクセスパターンとNVIDIA GH200 Grace Hopper Superchipのような現代的なハードウェアの高帯域を活用することで、Pieはフォアグラウンド計算に影響を与えることなく、同時データスワップを可能にし、遅延を追加せずに有効メモリを拡張する。
適応拡張は、リアルタイム情報に基づいてCPUメモリ割り当てを動的に調整し、異なる条件下でのメモリ使用量と性能を最適化する。
Pieは低計算レイテンシ、高スループット、高弾力性を維持している。
実験により,Pieはキャッシュウォームアップ時に最適なスワッピングポリシーを達成し,メモリ容量の増大と計算への影響を効果的にバランスできることを示した。
容量が拡張されたことにより、PieはvLLMのスループットを最大1.9倍、レイテンシを2倍に向上させた。
さらに、Pieは同じ性能を維持しながら、GPUメモリ使用量を最大1.67倍に削減できる。
オフラインのプロファイリングベースのスワップソリューションであるFlexGenと比較すると、Pieはレイテンシが格段に低く、スループットが9.4倍になる。
関連論文リスト
- Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading [2.8231000588510757]
トランスフォーマーと大規模言語モデル(LLM)は、すべてのドメインで急速に採用されている。
変圧器の訓練は非常に高価で、しばしば記憶壁にぶつかる」
本稿では,LLMをCPUまたはGPU上で更新フェーズをスケジュールしたサブグループに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-10-26T00:43:59Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - AI and Memory Wall [81.06494558184049]
メモリ帯域幅がデコーダモデルの主要なボトルネックとなることを示す。
私たちは、このメモリ制限を克服するためのモデルアーキテクチャ、トレーニング、デプロイメント戦略の再設計を主張します。
論文 参考訳(メタデータ) (2024-03-21T04:31:59Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - DeepSpeed Inference: Enabling Efficient Inference of Transformer Models
at Unprecedented Scale [20.558091867632445]
DeepSpeed Inferenceは、トランスフォーマーモデル推論のための包括的なシステムソリューションである。
レイテンシ指向シナリオの最先端よりもレイテンシを最大7.3倍削減し、スループット指向シナリオのスループットを1.5倍向上する。
GPUのみのソリューションよりも25倍大きなモデルを推論でき、高いスループットは84 TFLOPS(A6000ピークの50ドル以上)を提供する。
論文 参考訳(メタデータ) (2022-06-30T18:01:08Z) - FlashAttention: Fast and Memory-Efficient Exact Attention with
IO-Awareness [80.3586155104237]
FlashAttentionは、トランスフォーマーのためのIO対応の正確な注意アルゴリズムである。
これにより、GPU高帯域メモリ(HBM)とGPUオンチップ間のメモリ読み込み/書き込み数を削減できる。
FlashAttentionとブロックスパース FlashAttentionは、トランスフォーマーのコンテキストを長くすることを可能にする。
論文 参考訳(メタデータ) (2022-05-27T17:53:09Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z) - Training Large Neural Networks with Constant Memory using a New
Execution Algorithm [0.5424799109837065]
L2L (layer-to-layer) と呼ばれる新しいリレー式実行手法を提案する。
L2Lは、単一の16GB V100と512GBのCPUメモリを持つマシンに最大500億のパラメータを適合させることができる。
論文 参考訳(メタデータ) (2020-02-13T17:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。