論文の概要: Model-Parallel Model Selection for Deep Learning Systems
- arxiv url: http://arxiv.org/abs/2107.06469v1
- Date: Wed, 14 Jul 2021 03:20:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-15 14:08:54.238281
- Title: Model-Parallel Model Selection for Deep Learning Systems
- Title(参考訳): ディープラーニングシステムのためのモデル並列モデル選択
- Authors: Kabir Nagrecha
- Abstract要約: 機械学習(ML)トレーニングの非効率性は、ほとんどのユーザにとって最先端モデルの実用的使用を防止する。
多くのML実践者は、計算要求を複数のデバイスに分散させる方法として、並列性をモデル化している。
タスクとモデル並列性を組み合わせた新しい形式の「シャード並列性」を提案し、それをHydraという名前のフレームワークにパッケージ化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As deep learning becomes more expensive, both in terms of time and compute,
inefficiencies in machine learning (ML) training prevent practical usage of
state-of-the-art models for most users. The newest model architectures are
simply too large to be fit onto a single processor. To address the issue, many
ML practitioners have turned to model parallelism as a method of distributing
the computational requirements across several devices. Unfortunately, the
sequential nature of neural networks causes very low efficiency and device
utilization in model parallel training jobs. We propose a new form of "shard
parallelism" combining task and model parallelism, then package it into a
framework we name Hydra. Hydra recasts the problem of model parallelism in the
multi-model context to produce a fine-grained parallel workload of independent
model shards, rather than independent models. This new parallel design promises
dramatic speedups relative to the traditional model parallelism paradigm.
- Abstract(参考訳): ディープラーニングが時間と計算の両面で高価になるにつれて、マシンラーニング(ML)トレーニングの非効率性は、ほとんどのユーザにとって最先端モデルの実用的使用を妨げる。
最新のモデルアーキテクチャは、単に1つのプロセッサに適合するには大きすぎる。
この問題に対処するため、多くのML実践者は、計算要求を複数のデバイスに分散させる方法として、並列性をモデル化している。
残念なことに、ニューラルネットワークのシーケンシャルな性質は、モデル並列トレーニングジョブにおいて非常に低い効率とデバイス利用を引き起こす。
タスクとモデル並列性を組み合わせた新しい形式の"シャード並列性"を提案し,それをhydraと呼ばれるフレームワークにパッケージ化する。
Hydraは、モデル並列性の問題をマルチモデルコンテキストで再放送し、独立モデルではなく独立モデルシャードのきめ細かい並列ワークロードを生成する。
この新しい並列設計は、従来のモデル並列化パラダイムと比較して劇的なスピードアップを約束する。
関連論文リスト
- Saturn: An Optimized Data System for Large Model Deep Learning Workloads [6.377812618046872]
SPASEに取り組む: 並列性を選択し、リソースをアロケートし、スケジューリングする。
本研究では,SPASE問題に全体的に取り組むための新しい情報システムアーキテクチャを提案する。
また,MILPソルバの直接使用は,複数のベースラインよりも有意に有効であることがわかった。
論文 参考訳(メタデータ) (2023-09-03T17:19:11Z) - AlpaServe: Statistical Multiplexing with Model Parallelism for Deep
Learning Serving [53.01646445659089]
モデル並列性は、複数のモデルを提供する場合、複数のデバイスの統計多重化に利用できることを示す。
本稿では,大規模ディープラーニングモデルのコレクションを配置・並列化するための効率的な戦略を決定する新しいサービスシステムAlpaServeを提案する。
論文 参考訳(メタデータ) (2023-02-22T21:41:34Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。
圧縮アルゴリズムの3つの共通クラスを実装し,評価する。
我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文 参考訳(メタデータ) (2023-01-06T18:58:09Z) - Alpa: Automating Inter- and Intra-Operator Parallelism for Distributed
Deep Learning [54.99749970495241]
Alpaは大規模なディープラーニング(DL)モデルのモデル並列トレーニングを自動化する。
Alpaはデータ、演算子、パイプライン並列性を統一する実行計画を生成する。
特殊なシステムとは異なり、Alpaは手動設計の計画なしで異質なアーキテクチャやモデルを持つモデルに一般化する。
論文 参考訳(メタデータ) (2022-01-28T10:13:35Z) - OneFlow: Redesign the Distributed Deep Learning Framework from Scratch [17.798586916628174]
OneFlowは、SBP(スプリット、ブロードキャスト、部分値)の抽象化とアクターモデルに基づく、新しい分散トレーニングフレームワークである。
SBPは既存のフレームワークよりも、データ並列処理やモデル並列処理のプログラミングがずっと簡単になります。
OneFlowは、最先端のフレームワーク上に構築された多くの有名なカスタマイズライブラリよりも優れています。
論文 参考訳(メタデータ) (2021-10-28T11:32:14Z) - Hydra: A System for Large Multi-Model Deep Learning [3.571623412954477]
本稿では,トランスフォーマーやCNNといったモデルを対象として,DRAMとGPUメモリ間のレイヤ群を移動させる手法である'model spilling'を提案する。
次に,マルチモデルトレーニングワークロードの効率を上げるために,こぼれを利用した新しいテクニックのセットを提案する。
実際のベンチマークワークロードによる実験によると、HYDRAは通常のモデル並列処理よりも7倍高速で、パイプライン並列処理のための最先端の産業ツールよりも50%高速である。
論文 参考訳(メタデータ) (2021-10-16T18:13:57Z) - Automatic Graph Partitioning for Very Large-scale Deep Learning [4.472135966077758]
本研究では,自動ハイブリッド並列処理のためのRaNNC(Rapid Neural Network Connector)を提案する。
RaNNCは自動的にモデルをサブコンポーネントのセットに分割し、各サブコンポーネントがデバイスメモリに適合するようにします。
RaNNCはMegatron-LMよりも5倍大きなモデルのトレーニングに成功し、RaNNCのトレーニングスループットは、同じモデルを事前トレーニングする際にMegatron-LMに匹敵するものでした。
論文 参考訳(メタデータ) (2021-03-30T04:26:04Z) - TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale
Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。
TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文 参考訳(メタデータ) (2021-02-16T07:34:32Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。