論文の概要: OneFlow: Redesign the Distributed Deep Learning Framework from Scratch
- arxiv url: http://arxiv.org/abs/2110.15032v1
- Date: Thu, 28 Oct 2021 11:32:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-30 03:09:36.177813
- Title: OneFlow: Redesign the Distributed Deep Learning Framework from Scratch
- Title(参考訳): OneFlow: Scratchから分散ディープラーニングフレームワークを再設計
- Authors: Jinhui Yuan and Xinqi Li and Cheng Cheng and Juncheng Liu and Ran Guo
and Shenghang Cai and Chi Yao and Fei Yang and Xiaodong Yi and Chuan Wu and
Haoran Zhang and Jie Zhao
- Abstract要約: OneFlowは、SBP(スプリット、ブロードキャスト、部分値)の抽象化とアクターモデルに基づく、新しい分散トレーニングフレームワークである。
SBPは既存のフレームワークよりも、データ並列処理やモデル並列処理のプログラミングがずっと簡単になります。
OneFlowは、最先端のフレームワーク上に構築された多くの有名なカスタマイズライブラリよりも優れています。
- 参考スコア(独自算出の注目度): 17.798586916628174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning frameworks such as TensorFlow and PyTorch provide a productive
interface for expressing and training a deep neural network (DNN) model on a
single device or using data parallelism. Still, they may not be flexible or
efficient enough in training emerging large models on distributed devices,
which require more sophisticated parallelism beyond data parallelism. Plugins
or wrappers have been developed to strengthen these frameworks for model or
pipeline parallelism, but they complicate the usage and implementation of
distributed deep learning. Aiming at a simple, neat redesign of distributed
deep learning frameworks for various parallelism paradigms, we present OneFlow,
a novel distributed training framework based on an SBP (split, broadcast and
partial-value) abstraction and the actor model. SBP enables much easier
programming of data parallelism and model parallelism than existing frameworks,
and the actor model provides a succinct runtime mechanism to manage the complex
dependencies imposed by resource constraints, data movement and computation in
distributed deep learning. We demonstrate the general applicability and
efficiency of OneFlow for training various large DNN models with case studies
and extensive experiments. The results show that OneFlow outperforms many
well-known customized libraries built on top of the state-of-the-art
frameworks. The code of OneFlow is available at:
https://github.com/Oneflow-Inc/oneflow.
- Abstract(参考訳): TensorFlowやPyTorchといったディープラーニングフレームワークは、単一のデバイス上でのディープニューラルネットワーク(DNN)モデルの表現とトレーニング、あるいはデータ並列性を使用するための生産的なインターフェースを提供する。
それでも、データ並列性以上の高度な並列性を必要とする分散デバイス上で、新興の大規模モデルをトレーニングする上で、柔軟性や効率が十分でない場合もあります。
モデルやパイプライン並列性のためのこれらのフレームワークを強化するためにプラグインやラッパーが開発されたが、分散ディープラーニングの使用と実装は複雑である。
並列処理パラダイムの分散ディープラーニングフレームワークをシンプルに再設計することを目的としたOneFlowは,SBP(split, broadcast, partial-value)抽象化とアクタモデルに基づく,新たな分散トレーニングフレームワークである。
sbpは、既存のフレームワークよりもはるかに簡単にデータ並列処理とモデル並列処理のプログラミングを可能にし、アクターモデルは、分散ディープラーニングでリソース制約、データ移動、計算によって課される複雑な依存関係を管理するための簡潔なランタイムメカニズムを提供する。
ケーススタディと広範囲な実験による大規模DNNモデルのトレーニングにおいて,OneFlowの汎用性と効率性を示す。
その結果、OneFlowは最先端フレームワーク上に構築された多くの有名なカスタマイズライブラリよりも優れています。
oneflowのコードは、https://github.com/oneflow-inc/oneflowで入手できる。
関連論文リスト
- Transformer Architecture for NetsDB [0.0]
我々はNetsDBで機能するディープラーニングモデルのためのトランスフォーマーのエンドツーエンド実装を作成します。
分散処理、デプロイメント、効率的な推論のために、当社のモデルから重みをロードします。
論文 参考訳(メタデータ) (2024-05-08T04:38:36Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。
圧縮アルゴリズムの3つの共通クラスを実装し,評価する。
我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文 参考訳(メタデータ) (2023-01-06T18:58:09Z) - Decentralized Training of Foundation Models in Heterogeneous
Environments [77.47261769795992]
GPT-3 や PaLM のようなトレーニング基盤モデルは、非常に高価である。
ヘテロジニアスネットワーク上での分散型システムにおけるモデル並列化を用いた大規模基盤モデルのトレーニングに関する最初の研究について述べる。
論文 参考訳(メタデータ) (2022-06-02T20:19:51Z) - Amazon SageMaker Model Parallelism: A General and Flexible Framework for
Large Model Training [10.223511922625065]
PyTorchと統合したソフトウェアライブラリであるAmazon SageMakerモデル並列性について紹介する。
モデル並列性やその他のメモリ節約機能を使って、大規模なモデルのトレーニングを容易にする。
GPT-3,RoBERTa,BERT,ニューラルコラボレーティブフィルタの性能評価を行った。
論文 参考訳(メタデータ) (2021-11-10T22:30:21Z) - Model-Parallel Model Selection for Deep Learning Systems [0.0]
機械学習(ML)トレーニングの非効率性は、ほとんどのユーザにとって最先端モデルの実用的使用を防止する。
多くのML実践者は、計算要求を複数のデバイスに分散させる方法として、並列性をモデル化している。
タスクとモデル並列性を組み合わせた新しい形式の「シャード並列性」を提案し、それをHydraという名前のフレームワークにパッケージ化する。
論文 参考訳(メタデータ) (2021-07-14T03:20:37Z) - TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale
Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。
TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文 参考訳(メタデータ) (2021-02-16T07:34:32Z) - Parallel Training of Deep Networks with Local Updates [84.30918922367442]
ローカル並列性(Local Parallelism)は、グローバルバックプロパゲーションを切り捨てられたレイヤワイズバックプロパゲーションに置き換えることで、ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークである。
我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。
論文 参考訳(メタデータ) (2020-12-07T16:38:45Z) - Towards a Scalable and Distributed Infrastructure for Deep Learning
Applications [4.4979162962108905]
Phylanxは生産性を重視した実行ツリーを提供する。
分散ディープラーニングフレームワークにおける欠点を軽減する可能性を持つPhylanxを提案する。
論文 参考訳(メタデータ) (2020-10-06T20:38:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。