論文の概要: Model Parallelism on Distributed Infrastructure: A Literature Review
from Theory to LLM Case-Studies
- arxiv url: http://arxiv.org/abs/2403.03699v1
- Date: Wed, 6 Mar 2024 13:29:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 14:52:06.892392
- Title: Model Parallelism on Distributed Infrastructure: A Literature Review
from Theory to LLM Case-Studies
- Title(参考訳): 分散インフラストラクチャにおけるモデル並列性:理論からLLM事例研究への文献レビュー
- Authors: Felix Brakel, Uraz Odyurt, Ana-Lucia Varbanescu
- Abstract要約: モデル並列性にはどのような種類があるのか?」「モデル並列性の課題は何か?」「モデル並列性の現代のユースケースは何か?
ニューラルネットワークをどのように並列化し、これらを演算子グラフとして表現するかを検討することで、最初の質問に答える。
ニューラルネットワークを並列化できる次元は、演算子内および演算子間である。
2つ目の質問は、並列処理の型に対する実装上の課題と、演算子グラフを最適に分割する問題の両方を収集し、リストアップすることで答える。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural networks have become a cornerstone of machine learning. As the trend
for these to get more and more complex continues, so does the underlying
hardware and software infrastructure for training and deployment. In this
survey we answer three research questions: "What types of model parallelism
exist?", "What are the challenges of model parallelism?", and "What is a modern
use-case of model parallelism?" We answer the first question by looking at how
neural networks can be parallelised and expressing these as operator graphs
while exploring the available dimensions. The dimensions along which neural
networks can be parallelised are intra-operator and inter-operator. We answer
the second question by collecting and listing both implementation challenges
for the types of parallelism, as well as the problem of optimally partitioning
the operator graph. We answer the last question by collecting and listing how
parallelism is applied in modern multi-billion parameter transformer networks,
to the extend that this is possible with the limited information shared about
these networks.
- Abstract(参考訳): ニューラルネットワークは機械学習の基盤となっている。
これらの傾向がますます複雑化するにつれ、トレーニングとデプロイメントのための基盤となるハードウェアとソフトウェアインフラストラクチャもさらに複雑になっていきます。
本研究では,「モデル並列化にはどのような種類が存在するのか」,「モデル並列化の課題は何か」,「モデル並列化の現代的なユースケースは何か?」という3つの研究課題に回答する。
ニューラルネットワークがどのように並列化され、利用可能な次元を探索しながら演算子グラフとして表現できるかを見て、最初の疑問に答える。
ニューラルネットワークを並列化できる範囲は、オペレータ内とオペレータ間である。
第2の質問は、並列処理のタイプに対する実装上の課題と演算子グラフを最適に分割する問題の両方を収集し、リストアップすることで答える。
最後の質問は、現在の数十億のパラメータートランスフォーマーネットワークにおいて並列性がどのように適用されているかを収集し、リストアップすることで答える。
関連論文リスト
- Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Retentive Network: A Successor to Transformer for Large Language Models [91.6652200825638]
大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。
理論的には、再発と注意の関係を導出する。
言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
論文 参考訳(メタデータ) (2023-07-17T16:40:01Z) - TAP: Accelerating Large-Scale DNN Training Through Tensor Automatic
Parallelisation [19.009600866053923]
本稿では,最適なデータとテンソル並列スケジュールを自動的に検索するモデル並列化フレームワークTAPを提案する。
実験によると、TAPは最先端の自動並列処理フレームワークよりも20ドルから160ドル高速である。
論文 参考訳(メタデータ) (2023-02-01T05:22:28Z) - Embarrassingly Parallel Independent Training of Multi-Layer Perceptrons
with Heterogeneous Architectures [2.094821665776961]
ParallelMLPsは、異なる数のニューロンとアクティベーション関数を並列に持つ複数の独立したパーセプトロンニューラルネットワークのトレーニングを可能にする手順である。
我々は,1万の異なるモデルを用いて,サンプル数,特徴量,バッチ数をシミュレーションデータセットで評価した。
逐次的アプローチと比較して1~4桁のトレーニングスピードアップを実現した。
論文 参考訳(メタデータ) (2022-06-14T02:00:31Z) - Path Regularization: A Convexity and Sparsity Inducing Regularization
for Parallel ReLU Networks [75.33431791218302]
本稿では,ディープニューラルネットワークのトレーニング問題について検討し,最適化環境に隠された凸性を明らかにするための解析的アプローチを提案する。
我々は、標準のディープ・ネットワークとResNetを特別なケースとして含む、ディープ・パラレルなReLUネットワークアーキテクチャについて検討する。
論文 参考訳(メタデータ) (2021-10-18T18:00:36Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Model-Parallel Model Selection for Deep Learning Systems [0.0]
機械学習(ML)トレーニングの非効率性は、ほとんどのユーザにとって最先端モデルの実用的使用を防止する。
多くのML実践者は、計算要求を複数のデバイスに分散させる方法として、並列性をモデル化している。
タスクとモデル並列性を組み合わせた新しい形式の「シャード並列性」を提案し、それをHydraという名前のフレームワークにパッケージ化する。
論文 参考訳(メタデータ) (2021-07-14T03:20:37Z) - TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale
Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。
TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文 参考訳(メタデータ) (2021-02-16T07:34:32Z) - Parallel Training of Deep Networks with Local Updates [84.30918922367442]
ローカル並列性(Local Parallelism)は、グローバルバックプロパゲーションを切り捨てられたレイヤワイズバックプロパゲーションに置き換えることで、ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークである。
我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。
論文 参考訳(メタデータ) (2020-12-07T16:38:45Z) - A Linear Algebraic Approach to Model Parallelism in Deep Learning [0.0]
ネットワークのサイズと複雑さが大きくなるにつれて、大規模クラスタコンピューティング環境でのディープニューラルネットワーク(DNN)のトレーニングがますます必要になる。
深層学習における並列性をモデル化するための線形代数的手法を提案し,DNNにおけるテンソルの並列分布を実現する。
本研究では,これらの並列プリミティブを用いて分散DNN層を構築し,PyTorchおよびMPIベースの分散ディープラーニングツールキットであるDistDLを用いて分散DNNを構築し,訓練することにより,それらのアプリケーションを実演する。
論文 参考訳(メタデータ) (2020-06-04T19:38:05Z) - Brief Announcement: On the Limits of Parallelizing Convolutional Neural
Networks on GPUs [0.45740558095423056]
深層ニューラルネットワーク(DNN)のトレーニングは、大量のパラメータを学習しなければならないため、GPU上でも時間を要するプロセスである。
我々は、トレーニング時間を短縮するために、最先端の非線形ネットワークにおいて、このリッチ並列性を活用する必要性と潜在的な利点を論じる。
論文 参考訳(メタデータ) (2020-05-28T07:51:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。