論文の概要: LLM-PQ: Serving LLM on Heterogeneous Clusters with Phase-Aware Partition
and Adaptive Quantization
- arxiv url: http://arxiv.org/abs/2403.01136v1
- Date: Sat, 2 Mar 2024 08:40:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 15:10:11.030466
- Title: LLM-PQ: Serving LLM on Heterogeneous Clusters with Phase-Aware Partition
and Adaptive Quantization
- Title(参考訳): LLM-PQ:相認識分割と適応量子化による不均一クラスタ上でのLDMの実現
- Authors: Juntao Zhao, Borui Wan, Yanghua Peng, Haibin Lin, Chuan Wu
- Abstract要約: 本稿では、不均一GPUクラスタ上でのLCM機能効率を改善するために、適応モデル量子化と位相認識分割を提案する。
11の異なるクラスタでのプロダクション推論ワークロードの実験は、LLM-PQが推論のスループットを最大2.88倍(2.26倍)向上させることを示した。
- 参考スコア(独自算出の注目度): 9.517540904818986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent breakthroughs in Large-scale language models (LLMs) have demonstrated
impressive performance on various tasks. The immense sizes of LLMs have led to
very high resource demand and cost for running the models. Though the models
are largely served using uniform high-caliber GPUs nowadays, utilizing a
heterogeneous cluster with a mix of available high- and low-capacity GPUs can
potentially substantially reduce the serving cost. There is a lack of designs
to support efficient LLM serving using a heterogeneous cluster, while the
current solutions focus on model partition and uniform compression among
homogeneous devices. This paper proposes LLM-PQ, a system that advocates
adaptive model quantization and phase-aware partition to improve LLM serving
efficiency on heterogeneous GPU clusters. We carefully decide on
mixed-precision model quantization together with phase-aware model partition
and micro-batch sizing in distributed LLM serving with an efficient algorithm,
to greatly enhance inference throughput while fulfilling user-specified model
quality targets. Extensive experiments on production inference workloads in 11
different clusters demonstrate that LLM-PQ achieves up to 2.88x (2.26x on
average) throughput improvement in inference, showing great advantages over
state-of-the-art works.
- Abstract(参考訳): 最近の大規模言語モデル(llm)のブレークスルーは、様々なタスクで印象的なパフォーマンスを示している。
LLMの巨大なサイズは、モデルを実行するための非常に高いリソース需要とコストをもたらしました。
モデルは現在、均一なハイカリバーGPUを使用しているが、利用可能な高容量と低容量のGPUを混合した異種クラスタを利用することで、サービスコストを大幅に削減することができる。
ヘテロジニアスクラスタを使用する効率的なllmサービスをサポートするための設計が欠けている一方で、現在のソリューションは均質なデバイス間のモデル分割と一様圧縮に焦点を当てている。
本稿では、不均一GPUクラスタ上でのLCM機能効率を改善するために、適応モデル量子化と位相認識分割を提唱するLLM-PQを提案する。
高速アルゴリズムを用いた分散LLMにおける位相認識モデル分割とマイクロバッチサイズを併用した混合精度モデル量子化を慎重に検討し,ユーザ特定モデル品質目標を達成しつつ,推論スループットを大幅に向上させる。
11の異なるクラスタにおけるプロダクション推論ワークロードに関する大規模な実験は、LLM-PQが推論のスループットを最大2.88倍(2.26倍)向上させることを示した。
関連論文リスト
- Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - On the Compressibility of Quantized Large Language Models [13.443384050034922]
大規模言語モデル(LLM)は、エッジまたはモバイルデバイスにデプロイされ、データプライバシとリアルタイム処理機能を提供する。
LLMは、エッジやモバイルデバイスの限られたメモリに完全に収まるには大きすぎるかもしれないし、推論を完了するには、部分的にストレージからロードする必要がある。
データ圧縮技術を適用してデータ移動を減らし、メモリ制約デバイス上での量子化LDMの推論を高速化する。
論文 参考訳(メタデータ) (2024-03-03T03:27:07Z) - Not All Experts are Equal: Efficient Expert Pruning and Skipping for
Mixture-of-Experts Large Language Models [94.02958592636972]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - Dependable Distributed Training of Compressed Machine Learning Models [16.403297089086042]
信頼性のある学習オーケストレーションのためのフレームワークであるDepLを提案する。
i) 学習に活用するデータ、(ii) 使用するモデルと、それらに切り替えるタイミング、(iii) ノードのクラスタとそのリソースについて、高品質で効率的な決定を行う。
DepLの競合比と複雑性は一定であり、最先端技術よりも27%以上向上していることを示す。
論文 参考訳(メタデータ) (2024-02-22T07:24:26Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Efficient LLM inference solution on Intel GPU [15.986315440248294]
トランスフォーマーベースの大規模言語モデル(LLM)は多くの分野で広く使われている。
低レイテンシかつ高スループットで効率的なLLM推論ソリューションを提案する。
標準的なHuggingFaceの実装と比較して、提案されたソリューションは最大で7倍のトークンレイテンシと27倍のスループットを実現している。
論文 参考訳(メタデータ) (2023-12-19T05:40:43Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z) - SqueezeLLM: Dense-and-Sparse Quantization [83.7810943431625]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Memory-Efficient Fine-Tuning of Compressed Large Language Models via
sub-4-bit Integer Quantization [27.79783067245817]
大規模言語モデル(LLM)は、高いメモリ要求と計算コストのため、微調整とデプロイメントの課題に直面している。
本稿では,PEFT と量子化 LLM の利点を組み合わせた簡易かつ効果的な手法である PEQA (Efficient Adaptation and Quantization-aware) を提案する。
論文 参考訳(メタデータ) (2023-05-23T15:20:01Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。