論文の概要: VirtualFlow: Decoupling Deep Learning Models from the Underlying
Hardware
- arxiv url: http://arxiv.org/abs/2009.09523v2
- Date: Tue, 11 May 2021 20:35:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 13:09:26.189130
- Title: VirtualFlow: Decoupling Deep Learning Models from the Underlying
Hardware
- Title(参考訳): VirtualFlow: 下位ハードウェアからディープラーニングモデルを分離する
- Authors: Andrew Or, Haoyu Zhang, Michael J. Freedman
- Abstract要約: 最先端のディープラーニングシステムは、モデルを基盤となるハードウェアと密に結合する。
ハードウェアからモデルを切り離すためにVirtualFlowを提案する。
トレーニングや推論の各ステップでは、入力データのバッチはハードウェアアクセラレータではなく仮想ノードに分割される。
- 参考スコア(独自算出の注目度): 9.461227523454188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art deep learning systems such as TensorFlow and PyTorch tightly
couple the model with the underlying hardware. This coupling requires the user
to modify application logic in order to run the same job across a different set
of resources, thereby limiting the choice of hardware for a given workload and
potentially forcing the user to forgo more efficient hardware configurations.
We propose VirtualFlow, a system leveraging a novel abstraction called
virtual node processing to decouple the model from the hardware. In each step
of training or inference, the batch of input data is split across virtual nodes
instead of hardware accelerators (e.g. GPUs and TPUs). Mapping multiple virtual
nodes to each accelerator and processing them sequentially effectively time
slices the batch, thereby allowing users to reduce the memory requirement of
their workloads and mimic large batch sizes on small clusters.
Using this technique, VirtualFlow enables many new use cases, such as
reproducing training results across different hardware, resource elasticity,
and heterogeneous training. In our evaluation, our implementation of
VirtualFlow for TensorFlow achieved strong convergence guarantees across
different hardware with out-of-the-box hyperparameters, up to 48% lower job
completion times with resource elasticity, and up to 42% higher throughput with
heterogeneous training.
- Abstract(参考訳): TensorFlowやPyTorchのような最先端のディープラーニングシステムは、モデルを基盤となるハードウェアと密に結合する。
この結合は、異なるリソースセットで同じジョブを実行するためにアプリケーションロジックを変更する必要があるため、特定のワークロードに対するハードウェアの選択を制限し、より効率的なハードウェア構成を強制する可能性がある。
ハードウェアからモデルを切り離すために仮想ノード処理と呼ばれる新しい抽象化を利用するシステムであるVirtualFlowを提案する。
トレーニングや推論の各ステップでは、入力データのバッチはハードウェアアクセラレータ(GPUやTPUなど)の代わりに仮想ノードに分割される。
複数の仮想ノードを各アクセラレータにマッピングし、バッチをシーケンシャルに処理することで、ワークロードのメモリ要求を削減し、小さなクラスタで大規模なバッチサイズを模倣することができる。
このテクニックを使用すると、virtualflowでは、さまざまなハードウェアでのトレーニング結果の再現、リソースの弾力性、異種トレーニングなど、多くの新しいユースケースが可能になる。
我々の評価では、TensorFlow用のVirtualFlowの実装は、アウトオブボックスのハイパーパラメータを持つ異なるハードウェア間での強力な収束保証、リソースの弾力性を備えたジョブ完了時間の最大48%、異種トレーニングによるスループット最大42%を実現しました。
関連論文リスト
- Faster Multi-GPU Training with PPLL: A Pipeline Parallelism Framework Leveraging Local Learning [8.628231789161577]
本稿では,ローカル学習アルゴリズムを活用する新しいフレームワークPPLL(Pipeline Parallelism based on Local Learning)を提案する。
GPU間のデータ転送を管理するキューを利用することで、PPLLはシームレスなクロスGPU通信を保証する。
その結果,PPLLは従来のパイプライン並列処理と同等あるいはそれ以上の訓練速度を達成しつつ,局所的な学習手法の学習速度を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-11-19T08:09:18Z) - Pipette: Automatic Fine-grained Large Language Model Training Configurator for Real-World Clusters [5.190794062263327]
大規模言語モデル(LLM)の訓練は、膨大な計算能力とメモリ容量の要求のために困難であることが知られている。
本稿では,実世界のクラスタを対象としたLLM自動微粒化トレーニングであるPipetteを提案する。
論文 参考訳(メタデータ) (2024-05-28T11:59:44Z) - Partitioned Neural Network Training via Synthetic Intermediate Labels [0.0]
GPUメモリの制約は、そのような巨大なモデルをトレーニングする上で、注目すべきボトルネックになっている。
この研究は、モデルをGPU間で分割し、個々のセグメントをトレーニングするために合成中間ラベルを生成することを提唱する。
このアプローチは、モデル精度を維持しながらデータ通信を最小限に抑える、より効率的なトレーニングプロセスをもたらす。
論文 参考訳(メタデータ) (2024-03-17T13:06:29Z) - Green AI: A Preliminary Empirical Study on Energy Consumption in DL
Models Across Different Runtime Infrastructures [56.200335252600354]
トレーニング済みのモデルを、ネイティブな開発環境とは異なる環境にデプロイするのは、一般的なプラクティスです。
これにより、インフラを含むONNXや標準フォーマットとして機能するONNXなどの交換フォーマットが導入された。
論文 参考訳(メタデータ) (2024-02-21T09:18:44Z) - FLEdge: Benchmarking Federated Machine Learning Applications in Edge Computing Systems [61.335229621081346]
フェデレートラーニング(FL)は,ネットワークエッジ上での分散ディープラーニングのプライバシ強化を実現する上で,有効なテクニックとなっている。
本稿では,既存のFLベンチマークを補完するFLEdgeを提案する。
論文 参考訳(メタデータ) (2023-06-08T13:11:20Z) - PARTIME: Scalable and Parallel Processing Over Time with Deep Neural
Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。
PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。
オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文 参考訳(メタデータ) (2022-10-17T14:49:14Z) - Accelerating GAN training using highly parallel hardware on public cloud [0.3694429692322631]
本研究は,GAN(Geneversarative Adversarial Network)を並列環境でトレーニングする,さまざまなタイプのクラウドサービスについて検討する。
複数のGPUとGoogle Processing Units(TPU)上でのトレーニングプロセスを並列化する。
トレーニングプロセスの線形スピードアップは、物理結果の観点から、ほとんどの性能を保ちながら得られる。
論文 参考訳(メタデータ) (2021-11-08T16:59:15Z) - OneFlow: Redesign the Distributed Deep Learning Framework from Scratch [17.798586916628174]
OneFlowは、SBP(スプリット、ブロードキャスト、部分値)の抽象化とアクターモデルに基づく、新しい分散トレーニングフレームワークである。
SBPは既存のフレームワークよりも、データ並列処理やモデル並列処理のプログラミングがずっと簡単になります。
OneFlowは、最先端のフレームワーク上に構築された多くの有名なカスタマイズライブラリよりも優れています。
論文 参考訳(メタデータ) (2021-10-28T11:32:14Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z) - Neural Network Compression Framework for fast model inference [59.65531492759006]
我々は、ニューラルネットワーク圧縮フレームワーク(NNCF)と呼ばれる、微調整によるニューラルネットワーク圧縮のための新しいフレームワークを提案する。
様々なネットワーク圧縮手法の最近の進歩を活用し、空間性、量子化、双項化などのいくつかの実装を行っている。
フレームワークは、トレーニングサンプル内に提供され、あるいは既存のトレーニングコードにシームレスに統合可能なスタンドアロンパッケージとして使用することができる。
論文 参考訳(メタデータ) (2020-02-20T11:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。