論文の概要: Hydra: A System for Large Multi-Model Deep Learning
- arxiv url: http://arxiv.org/abs/2110.08633v1
- Date: Sat, 16 Oct 2021 18:13:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 21:33:00.690599
- Title: Hydra: A System for Large Multi-Model Deep Learning
- Title(参考訳): hydra: 大規模多モデルディープラーニングのためのシステム
- Authors: Kabir Nagrecha, Arun Kumar
- Abstract要約: 本稿では,トランスフォーマーやCNNといったモデルを対象として,DRAMとGPUメモリ間のレイヤ群を移動させる手法である'model spilling'を提案する。
次に,マルチモデルトレーニングワークロードの効率を上げるために,こぼれを利用した新しいテクニックのセットを提案する。
実際のベンチマークワークロードによる実験によると、HYDRAは通常のモデル並列処理よりも7倍高速で、パイプライン並列処理のための最先端の産業ツールよりも50%高速である。
- 参考スコア(独自算出の注目度): 3.571623412954477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training deep learning (DL) models that do not fit into the memory of a
single GPU is a vexed process, forcing users to procure multiple GPUs to adopt
model-parallel execution. Unfortunately, sequential dependencies in neural
architectures often block efficient multi-device training, leading to
suboptimal performance. We present 'model spilling', a technique aimed at
models such as Transformers and CNNs to move groups of layers, or shards,
between DRAM and GPU memory, thus enabling arbitrarily large models to be
trained even on just one GPU. We then present a set of novel techniques
leveraging spilling to raise efficiency for multi-model training workloads such
as model selection: a new hybrid of task- and model-parallelism, a new shard
scheduling heuristic, and 'double buffering' to hide latency. We prototype our
ideas into a system we call HYDRA to support seamless single-model and
multi-model training of large DL models. Experiments with real benchmark
workloads show that HYDRA is over 7x faster than regular model parallelism and
over 50% faster than state-of-the-art industrial tools for pipeline
parallelism.
- Abstract(参考訳): 単一のGPUのメモリに収まらないディープラーニング(DL)モデルのトレーニングは、ユーザがモデル並列実行を採用するために複数のGPUの調達を強制する、面倒なプロセスである。
残念ながら、ニューラルネットワークアーキテクチャのシーケンシャルな依存関係は、効率のよいマルチデバイストレーニングをブロックすることが多い。
我々は,トランスフォーマーやCNNといったモデルを対象として,DRAMとGPUメモリ間でレイヤ群やシャードを移動させることで,任意の規模のモデルを1つのGPU上でもトレーニングすることが可能な「モデル流出」を提案する。
次に,タスクとモデル並列性の新しいハイブリッド,新しいシャードスケジューリングヒューリスティック,レイテンシを隠蔽する'ダブルバッファリング'といった,モデル選択などのマルチモデルトレーニングワークロードの効率を上げるためにスレーピングを活用する新しいテクニックを提案する。
我々はこのアイデアをHYDRAと呼ぶシステムにプロトタイプ化し、大きなDLモデルのシームレスなシングルモデルとマルチモデルトレーニングをサポートする。
実際のベンチマークワークロードによる実験によると、HYDRAは通常のモデル並列処理よりも7倍高速で、パイプライン並列処理のための最先端の産業ツールよりも50%高速である。
関連論文リスト
- Superpipeline: A Universal Approach for Reducing GPU Memory Usage in Large Models [40.41898661688188]
本稿では,制約ハードウェア上での大規模AIモデルの実行を最適化するフレームワークであるSuperpipelineを紹介する。
Superpipelineは、モデル精度と許容する処理速度を維持しながら、実験でGPUメモリ使用量を最大60%削減します。
論文 参考訳(メタデータ) (2024-10-11T13:17:05Z) - Harnessing Manycore Processors with Distributed Memory for Accelerated
Training of Sparse and Recurrent Models [43.1773057439246]
現在のAIトレーニングインフラストラクチャは、単一の命令多重データ(SIMD)とシストリック配列アーキテクチャによって支配されている。
分散ローカルメモリを用いた大規模並列多重命令型マルチデータアーキテクチャにおけるスパース・リカレントモデルトレーニングについて検討する。
論文 参考訳(メタデータ) (2023-11-07T23:18:35Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - AlpaServe: Statistical Multiplexing with Model Parallelism for Deep
Learning Serving [53.01646445659089]
モデル並列性は、複数のモデルを提供する場合、複数のデバイスの統計多重化に利用できることを示す。
本稿では,大規模ディープラーニングモデルのコレクションを配置・並列化するための効率的な戦略を決定する新しいサービスシステムAlpaServeを提案する。
論文 参考訳(メタデータ) (2023-02-22T21:41:34Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。
圧縮アルゴリズムの3つの共通クラスを実装し,評価する。
我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文 参考訳(メタデータ) (2023-01-06T18:58:09Z) - Galvatron: Efficient Transformer Training over Multiple GPUs Using
Automatic Parallelism [25.928940638269534]
我々は、最も効率的なハイブリッド並列化戦略を自動的に見つけるフレームワークであるGalvatronを提案する。
Galvatronは常に、並列性に制限のある以前の作業と比べて、優れたシステムスループットを実現している。
論文 参考訳(メタデータ) (2022-11-25T03:45:31Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - Model-Parallel Model Selection for Deep Learning Systems [0.0]
機械学習(ML)トレーニングの非効率性は、ほとんどのユーザにとって最先端モデルの実用的使用を防止する。
多くのML実践者は、計算要求を複数のデバイスに分散させる方法として、並列性をモデル化している。
タスクとモデル並列性を組み合わせた新しい形式の「シャード並列性」を提案し、それをHydraという名前のフレームワークにパッケージ化する。
論文 参考訳(メタデータ) (2021-07-14T03:20:37Z) - Efficient Large-Scale Language Model Training on GPU Clusters [19.00915720435389]
大規模な言語モデルは、様々なタスクに最先端の精度をもたらす。
メモリ容量は限られており、大きなモデルを単一のGPUに収めることは不可能である。
これらのモデルのトレーニングに必要な計算操作の数は、非現実的な長いトレーニング時間をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-04-09T16:43:11Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。