論文の概要: Computron: Serving Distributed Deep Learning Models with Model Parallel
Swapping
- arxiv url: http://arxiv.org/abs/2306.13835v1
- Date: Sat, 24 Jun 2023 01:38:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 18:48:59.218886
- Title: Computron: Serving Distributed Deep Learning Models with Model Parallel
Swapping
- Title(参考訳): Computron: モデル並列スワッピングによる分散ディープラーニングモデルの実現
- Authors: Daniel Zou, Xinchen Jin, Xueyang Yu, Hao Zhang, James Demmel
- Abstract要約: 言語や画像理解などの分野における今日の最も優れたディープラーニングモデルの多くは、数十億のパラメータを含んでいる。
共有GPUクラスタ上で複数の分散モデルを提供するためにメモリスワップを使用するシステムであるComputronを開発した。
- 参考スコア(独自算出の注目度): 5.429059120074075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many of the most performant deep learning models today in fields like
language and image understanding are fine-tuned models that contain billions of
parameters. In anticipation of workloads that involve serving many of such
large models to handle different tasks, we develop Computron, a system that
uses memory swapping to serve multiple distributed models on a shared GPU
cluster. Computron implements a model parallel swapping design that takes
advantage of the aggregate CPU-GPU link bandwidth of a cluster to speed up
model parameter transfers. This design makes swapping large models feasible and
can improve resource utilization. We demonstrate that Computron successfully
parallelizes model swapping on multiple GPUs, and we test it on randomized
workloads to show how it can tolerate real world variability factors like
burstiness and skewed request rates. Computron's source code is available at
https://github.com/dlzou/computron.
- Abstract(参考訳): 現在、言語や画像理解などの分野で最も高性能なディープラーニングモデルは、数十億のパラメータを含む微調整されたモデルである。
このような大規模モデルの多くで異なるタスクを処理するワークロードを想定して、共有gpuクラスタ上で複数の分散モデルを提供するためにメモリスワッピングを使用するcomputronを開発した。
computronは、クラスタのcpu-gpuリンク帯域を集約してモデルパラメータ転送を高速化するモデル並列スワップ設計を実装している。
この設計は、大きなモデルの交換を可能とし、資源利用を改善する。
我々は、Computronが複数のGPU上でモデルスワップの並列化に成功したことを実証し、ランダム化されたワークロードでテストし、バーストネスやスキュードリクエストレートといった現実世界の変動要因を許容できることを示す。
Computronのソースコードはhttps://github.com/dlzou/computron.comで入手できる。
関連論文リスト
- FlexModel: A Framework for Interpretability of Distributed Large
Language Models [0.0]
マルチGPUとマルチノード構成に分散したモデルを扱うための,合理化されたインターフェースを提供するソフトウェアパッケージであるFlexModelを紹介する。
このライブラリは既存のモデル配布ライブラリと互換性があり、PyTorchモデルをカプセル化している。
ユーザ登録可能なHookFunctionを公開して,分散モデル内部との直接的なインタラクションを容易にする。
論文 参考訳(メタデータ) (2023-12-05T21:19:33Z) - Retentive Network: A Successor to Transformer for Large Language Models [91.6652200825638]
大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。
理論的には、再発と注意の関係を導出する。
言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
論文 参考訳(メタデータ) (2023-07-17T16:40:01Z) - AlpaServe: Statistical Multiplexing with Model Parallelism for Deep
Learning Serving [53.01646445659089]
モデル並列性は、複数のモデルを提供する場合、複数のデバイスの統計多重化に利用できることを示す。
本稿では,大規模ディープラーニングモデルのコレクションを配置・並列化するための効率的な戦略を決定する新しいサービスシステムAlpaServeを提案する。
論文 参考訳(メタデータ) (2023-02-22T21:41:34Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。
圧縮アルゴリズムの3つの共通クラスを実装し,評価する。
我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文 参考訳(メタデータ) (2023-01-06T18:58:09Z) - Amazon SageMaker Model Parallelism: A General and Flexible Framework for
Large Model Training [10.223511922625065]
PyTorchと統合したソフトウェアライブラリであるAmazon SageMakerモデル並列性について紹介する。
モデル並列性やその他のメモリ節約機能を使って、大規模なモデルのトレーニングを容易にする。
GPT-3,RoBERTa,BERT,ニューラルコラボレーティブフィルタの性能評価を行った。
論文 参考訳(メタデータ) (2021-11-10T22:30:21Z) - Hydra: A System for Large Multi-Model Deep Learning [3.571623412954477]
本稿では,トランスフォーマーやCNNといったモデルを対象として,DRAMとGPUメモリ間のレイヤ群を移動させる手法である'model spilling'を提案する。
次に,マルチモデルトレーニングワークロードの効率を上げるために,こぼれを利用した新しいテクニックのセットを提案する。
実際のベンチマークワークロードによる実験によると、HYDRAは通常のモデル並列処理よりも7倍高速で、パイプライン並列処理のための最先端の産業ツールよりも50%高速である。
論文 参考訳(メタデータ) (2021-10-16T18:13:57Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - Model-Parallel Model Selection for Deep Learning Systems [0.0]
機械学習(ML)トレーニングの非効率性は、ほとんどのユーザにとって最先端モデルの実用的使用を防止する。
多くのML実践者は、計算要求を複数のデバイスに分散させる方法として、並列性をモデル化している。
タスクとモデル並列性を組み合わせた新しい形式の「シャード並列性」を提案し、それをHydraという名前のフレームワークにパッケージ化する。
論文 参考訳(メタデータ) (2021-07-14T03:20:37Z) - Efficient Large-Scale Language Model Training on GPU Clusters [19.00915720435389]
大規模な言語モデルは、様々なタスクに最先端の精度をもたらす。
メモリ容量は限られており、大きなモデルを単一のGPUに収めることは不可能である。
これらのモデルのトレーニングに必要な計算操作の数は、非現実的な長いトレーニング時間をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-04-09T16:43:11Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。