論文の概要: MAP: Memory-aware Automated Intra-op Parallel Training For Foundation
Models
- arxiv url: http://arxiv.org/abs/2302.02599v1
- Date: Mon, 6 Feb 2023 07:22:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 17:22:39.297756
- Title: MAP: Memory-aware Automated Intra-op Parallel Training For Foundation
Models
- Title(参考訳): MAP: ファンデーションモデルのためのメモリ対応並列トレーニング自動化
- Authors: Yuliang Liu, Shenggui Li, Jiarui Fang, Yanjun Shao, Boyuan Yao, Yang
You
- Abstract要約: 我々は PyTorch 上に構築された MAP を紹介した。
MAPは既存の手法と比較して、任意のPyTorchモデルのメモリおよび計算統計を生成するのに使いやすいシンボリックプロファイラを提供する。
- 参考スコア(独自算出の注目度): 15.256207550970501
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, large models have achieved the state of the art performances in
various fields. In order to support large model training, we have to use
distributed training techniques. However, finding an efficient distributed
execution plan not only requires fine-grained model statistics, such as memory
and computing overhead of each operator but also is a labor-intensive task even
for an expert in the field of distributed training. In this paper, we introduce
MAP, a compiler built upon PyTorch to implement Memory-aware Automated
Parallelization. To profiling operator costs, existing training systems and
machine learning pipelines either physically execute with respect to each
operand or estimate the memory usage with a scaled input tensor, which are
often time-consuming and misleading. Compared with existing methods, MAP
provides an easy-to-use symbolic profiler to generate memory and computing
statistics of an arbitrary PyTorch model with trivial time cost, so it will
boost high productivity for ML developers. In addition, MAP can also seamlessly
speed up different static planning tasks on computation graphs for PyTorch, and
requires only a few lines of modification to user code to generate a new module
instance that has a top-performing distributed execution plan. The source code
is publicly available at https://github.com/hpcaitech/ColossalAI
- Abstract(参考訳): 近年,大規模モデルが様々な分野の芸術パフォーマンスの水準に達している。
大規模モデルトレーニングをサポートするためには,分散トレーニング技術を使用する必要がある。
しかし、効率的な分散実行計画を見つけるには、演算子のメモリや演算オーバーヘッドなどの詳細なモデル統計を必要とするだけでなく、分散トレーニング分野の専門家にとっても労働集約的な作業である。
本稿では,メモリ対応自動並列化を実現するためにpytorch上に構築されたmapを提案する。
演算子コストをプロファイリングするために、既存のトレーニングシステムと機械学習パイプラインは、各オペランドに対して物理的に実行されるか、スケールした入力テンソルでメモリ使用量を推定する。
MAPは既存の手法と比較して、任意のPyTorchモデルのメモリと計算統計を簡単な時間で生成するための、使いやすいシンボリックプロファイラを提供する。
さらにMAPは,PyTorchの計算グラフ上でのさまざまな静的計画タスクをシームレスに高速化することも可能だ。
ソースコードはhttps://github.com/hpcaitech/ColossalAIで公開されている。
関連論文リスト
- Automatic Task Parallelization of Dataflow Graphs in ML/DL models [0.0]
本稿では,MLデータフローグラフに固有の並列パスを利用する線形クラスタリング手法を提案する。
我々はONNX形式で入力MLモデルから可読かつ実行可能な並列Pytorch+Pythonコードを生成する。
いくつかのMLグラフの予備結果は、シリアル実行よりも1.9$times$スピードアップである。
論文 参考訳(メタデータ) (2023-08-22T04:54:30Z) - Performance and Energy Consumption of Parallel Machine Learning
Algorithms [0.0]
機械学習モデルは、様々な現実世界のアプリケーションで顕著な成功を収めた。
機械学習のモデルトレーニングには、大規模データセットと複数のイテレーションが必要である。
トレーニングアルゴリズムの並列化は、トレーニングのプロセスを高速化するための一般的な戦略である。
論文 参考訳(メタデータ) (2023-05-01T13:04:39Z) - TRAK: Attributing Model Behavior at Scale [79.56020040993947]
本稿では,大規模な微分モデルに対して有効かつ計算的に抽出可能なデータ属性法であるTRAK(Tracing with Randomly-trained After Kernel)を提案する。
論文 参考訳(メタデータ) (2023-03-24T17:56:22Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - Merak: An Efficient Distributed DNN Training Framework with Automated 3D
Parallelism for Giant Foundation Models [14.903847751841221]
資源利用率の高い3次元並列化ディープラーニング学習フレームワークであるMerakを提案する。
Merakは、モデルのプロキシ表現にグラフシャーディングアルゴリズムを使用する自動モデルパーティショナで自動的にデプロイする。
Merakは1.5、2.5、8.3、200億のパラメータを持つモデルの最先端の3D並列化フレームワークをそれぞれ1.42X、1.39X、1.43X、1.61Xまで高速化することができる。
論文 参考訳(メタデータ) (2022-06-10T09:15:48Z) - Walle: An End-to-End, General-Purpose, and Large-Scale Production System
for Device-Cloud Collaborative Machine Learning [40.09527159285327]
We build the first end-to-end and general-purpose system, called Walle, for device-cloud collaborative machine learning (ML)
Walleはデプロイメントプラットフォームで構成され、MLタスクを10億規模のデバイスに分散する。データパイプラインはタスク入力を効率的に準備し、計算コンテナはクロスプラットフォームで高性能な実行環境を提供する。
我々はWalleを実践的なeコマースアプリケーションシナリオで評価し、その有効性、効率、スケーラビリティを実証する。
論文 参考訳(メタデータ) (2022-05-30T03:43:35Z) - Alpa: Automating Inter- and Intra-Operator Parallelism for Distributed
Deep Learning [54.99749970495241]
Alpaは大規模なディープラーニング(DL)モデルのモデル並列トレーニングを自動化する。
Alpaはデータ、演算子、パイプライン並列性を統一する実行計画を生成する。
特殊なシステムとは異なり、Alpaは手動設計の計画なしで異質なアーキテクチャやモデルを持つモデルに一般化する。
論文 参考訳(メタデータ) (2022-01-28T10:13:35Z) - Towards Efficient Post-training Quantization of Pre-trained Language
Models [85.68317334241287]
PLMのポストトレーニング量子化(PTQ)について検討し,モジュール単位の量子化誤差最小化(MREM)を提案する。
GLUEとSQuADベンチマークの実験により、提案したPTQソリューションはQATに近く動作するだけでなく、トレーニング時間、メモリオーバーヘッド、データ消費を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2021-09-30T12:50:06Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - Automatic Cross-Replica Sharding of Weight Update in Data-Parallel
Training [12.36664837965624]
本稿では,レプリカ間で自動的に重み更新を行う手法を提案する。
本手法は,クラウドTPU上での典型的な画像モデルと言語モデルにおいて,大幅な高速化を実現する。
論文 参考訳(メタデータ) (2020-04-28T07:13:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。