論文の概要: FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU
- arxiv url: http://arxiv.org/abs/2303.06865v2
- Date: Mon, 12 Jun 2023 07:48:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 00:50:54.891705
- Title: FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU
- Title(参考訳): FlexGen: 単一GPUを用いた大規模言語モデルの高速生成推論
- Authors: Ying Sheng, Lianmin Zheng, Binhang Yuan, Zhuohan Li, Max Ryabinin,
Daniel Y. Fu, Zhiqiang Xie, Beidi Chen, Clark Barrett, Joseph E. Gonzalez,
Percy Liang, Christopher R\'e, Ion Stoica, Ce Zhang
- Abstract要約: FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
- 参考スコア(独自算出の注目度): 89.2451963569343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The high computational and memory requirements of large language model (LLM)
inference make it feasible only with multiple high-end accelerators. Motivated
by the emerging demand for latency-insensitive tasks with batched processing,
this paper initiates the study of high-throughput LLM inference using limited
resources, such as a single commodity GPU. We present FlexGen, a
high-throughput generation engine for running LLMs with limited GPU memory.
FlexGen can be flexibly configured under various hardware resource constraints
by aggregating memory and computation from the GPU, CPU, and disk. By solving a
linear programming problem, it searches for efficient patterns to store and
access tensors. FlexGen further compresses the weights and the attention cache
to 4 bits with negligible accuracy loss. These techniques enable FlexGen to
have a larger space of batch size choices and thus significantly increase
maximum throughput. As a result, when running OPT-175B on a single 16GB GPU,
FlexGen achieves significantly higher throughput compared to state-of-the-art
offloading systems, reaching a generation throughput of 1 token/s for the first
time with an effective batch size of 144. On the HELM benchmark, FlexGen can
benchmark a 30B model with a 16GB GPU on 7 representative sub-scenarios in 21
hours. The code is available at https://github.com/FMInference/FlexGen
- Abstract(参考訳): 大規模言語モデル(LLM)の高計算およびメモリ要求により、複数のハイエンドアクセラレーターでのみ実現可能である。
本稿では,バッチ処理による遅延に敏感なタスクの需要が高まっている中で,単一のコモディティGPUなどの限られたリソースを用いた高スループットLPM推論の研究を開始する。
我々は、限られたGPUメモリでLLMを実行するための高スループット生成エンジンFlexGenを紹介する。
FlexGenは、GPU、CPU、ディスクからメモリと計算を集約することで、様々なハードウェアリソース制約の下で柔軟に設定できる。
線形プログラミング問題を解くことで、テンソルの保存とアクセスのための効率的なパターンを探索する。
flexgenはさらに、重みとアテンションキャッシュを4ビットに圧縮し、精度を損なう。
これらの技術によりflexgenはバッチサイズ選択のスペースを大きくし、最大スループットを大幅に増やすことができる。
その結果、単一の16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上し、1トークン/sの生成スループットが144倍に向上した。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
コードはhttps://github.com/FMInference/FlexGenで入手できる。
関連論文リスト
- FlexLLM: A System for Co-Serving Large Language Model Inference and
Parameter-Efficient Finetuning [9.979010592887096]
既存のシステムは、推論とPEFTの微調整要求の混在を含むワークロードを処理できない。
同じイテレーションで推論およびパラメータ効率の良い微調整要求を処理できる最初のシステムであるFlexLLMを紹介します。
既存のシステムと比較して、FlexLLMの共サービスアプローチは、アクティベーションGPUメモリのオーバーヘッドを最大8倍、エンドツーエンドGPUメモリの要求を最大36%削減する。
論文 参考訳(メタデータ) (2024-02-29T01:33:08Z) - JaxMARL: Multi-Agent RL Environments in JAX [107.7560737385902]
我々は、使いやすさとGPU有効性を組み合わせた最初のオープンソースコードベースであるJaxMARLを紹介します。
私たちの実験によると、JAXベースのトレーニングパイプラインの実行は、既存のアプローチよりも最大で12500倍高速です。
また、人気のあるStarCraft Multi-Agent Challengeのベクトル化、単純化されたバージョンであるSMAXを紹介し、ベンチマークする。
論文 参考訳(メタデータ) (2023-11-16T18:58:43Z) - QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models [64.34635279436054]
Mixture-of-Experts (MoE)アーキテクチャは、スパースルーティングによる大規模言語モデル(LLM)の高推論コストに対する一般的な解決策を提供する。
本稿では,QMoEと呼ばれる新しい圧縮実行フレームワークの形で,このメモリ問題に対する解決策を提案する。
論文 参考訳(メタデータ) (2023-10-25T17:24:53Z) - Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative
Model Inference with Unstructured Sparsity [12.663030430488922]
高速コア上での低コストかつ高効率な大規模生成モデル推論を実現するためのFlash-LLMを提案する。
SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。
論文 参考訳(メタデータ) (2023-09-19T03:20:02Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - An Efficient Sparse Inference Software Accelerator for Transformer-based
Language Models on CPUs [12.883586189626431]
トランスフォーマーベースの言語モデルは、自然言語処理タスクの標準的なアプローチとなっている。
既存のほとんどのニューラルネットワーク推論ランタイムは、構造化されたスパーシリティを適切にサポートしていない。
本稿では,トランスフォーマーに基づく言語モデルのための効率的なスパース深層学習ソフトウェアスタックを提案する。
論文 参考訳(メタデータ) (2023-06-28T23:55:51Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z) - ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep
Learning [9.322987670900778]
ZeRO-Infinityは、現在の世代のGPUクラスタでトレーニングするための数十から数百兆のパラメータを持つモデルに適合できます。
1つのNVIDIA DGX-2ノードで1兆のパラメータモデルを微調整できるため、大きなモデルの方がアクセスしやすい。
論文 参考訳(メタデータ) (2021-04-16T02:22:12Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - GPU-Accelerated Primal Learning for Extremely Fast Large-Scale
Classification [10.66048003460524]
ロジスティック回帰や線形サポートベクターマシン(SVM)分類などのL2正規化原始問題を解く最も効率的な方法の1つは、広く使われている信頼領域ニュートンアルゴリズムであるTRONである。
我々は、GPU最適化の法則を用いて、異なる損失と特徴表現に対するTRONトレーニング時間を劇的に短縮できることを示した。
論文 参考訳(メタデータ) (2020-08-08T03:40:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。