論文の概要: Amazon SageMaker Model Parallelism: A General and Flexible Framework for
Large Model Training
- arxiv url: http://arxiv.org/abs/2111.05972v1
- Date: Wed, 10 Nov 2021 22:30:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-13 02:37:06.687745
- Title: Amazon SageMaker Model Parallelism: A General and Flexible Framework for
Large Model Training
- Title(参考訳): Amazon SageMaker Model Parallelism - 大規模モデルトレーニングのための汎用的で柔軟なフレームワーク
- Authors: Can Karakus, Rahul Huilgol, Fei Wu, Anirudh Subramanian, Cade Daniel,
Derya Cavdar, Teng Xu, Haohan Chen, Arash Rahnama, Luis Quintela
- Abstract要約: PyTorchと統合したソフトウェアライブラリであるAmazon SageMakerモデル並列性について紹介する。
モデル並列性やその他のメモリ節約機能を使って、大規模なモデルのトレーニングを容易にする。
GPT-3,RoBERTa,BERT,ニューラルコラボレーティブフィルタの性能評価を行った。
- 参考スコア(独自算出の注目度): 10.223511922625065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With deep learning models rapidly growing in size, systems-level solutions
for large-model training are required. We present Amazon SageMaker model
parallelism, a software library that integrates with PyTorch, and enables easy
training of large models using model parallelism and other memory-saving
features. In contrast to existing solutions, the implementation of the
SageMaker library is much more generic and flexible, in that it can
automatically partition and run pipeline parallelism over arbitrary model
architectures with minimal code change, and also offers a general and
extensible framework for tensor parallelism, which supports a wider range of
use cases, and is modular enough to be easily applied to new training scripts.
The library also preserves the native PyTorch user experience to a much larger
degree, supporting module re-use and dynamic graphs, while giving the user full
control over the details of the training step. We evaluate performance over
GPT-3, RoBERTa, BERT, and neural collaborative filtering, and demonstrate
competitive performance over existing solutions.
- Abstract(参考訳): ディープラーニングモデルのサイズが急速に大きくなると、大規模モデルのトレーニングのためのシステムレベルのソリューションが求められます。
我々は、PyTorchと統合したソフトウェアライブラリであるAmazon SageMakerモデル並列性を示し、モデル並列性やその他のメモリ節約機能を使用して、大規模モデルのトレーニングを容易にする。
既存のソリューションとは対照的に、SageMakerライブラリの実装はずっと汎用的で柔軟で、任意のモデルアーキテクチャ上でパイプラインの並列処理を分割し、最小限のコード変更で実行することができ、また、テンソル並列処理のための汎用的で拡張可能なフレームワークを提供し、幅広いユースケースをサポートし、新しいトレーニングスクリプトに簡単に適用できるモジュラーを提供する。
ライブラリはまた、ネイティブのPyTorchユーザエクスペリエンスをはるかに大きく保存し、モジュールの再使用と動的グラフをサポートしながら、トレーニングステップの詳細を完全にコントロールする。
GPT-3, RoBERTa, BERT, およびニューラルコラボレーティブフィルタリングの性能を評価し, 既存のソリューションに対する競合性能を示す。
関連論文リスト
- FlexModel: A Framework for Interpretability of Distributed Large
Language Models [0.0]
マルチGPUとマルチノード構成に分散したモデルを扱うための,合理化されたインターフェースを提供するソフトウェアパッケージであるFlexModelを紹介する。
このライブラリは既存のモデル配布ライブラリと互換性があり、PyTorchモデルをカプセル化している。
ユーザ登録可能なHookFunctionを公開して,分散モデル内部との直接的なインタラクションを容易にする。
論文 参考訳(メタデータ) (2023-12-05T21:19:33Z) - CoLLiE: Collaborative Training of Large Language Models in an Efficient
Way [59.09824823710863]
CoLLiEは、大規模な言語モデルの協調トレーニングを容易にする効率的なライブラリである。
モジュール設計と包括的な機能により、CoLLiEは効率性、使いやすさ、カスタマイズのバランスのとれたブレンドを提供する。
論文 参考訳(メタデータ) (2023-12-01T08:02:16Z) - Pipeline MoE: A Flexible MoE Implementation with Pipeline Parallelism [91.9372563527801]
既存のMoEモデルは、膨大な内部ノードとノード間通信オーバーヘッドに悩まされる。
本稿では,新しいMoEアーキテクチャであるPipeline MoE(PPMoE)を提案する。
PPMoEは、テンソル並列を組み込んだ専門家の並列処理を構築し、通信集約型の全対一のディスパッチとコレクションを置き換える。
論文 参考訳(メタデータ) (2023-04-22T14:09:14Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。
圧縮アルゴリズムの3つの共通クラスを実装し,評価する。
我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文 参考訳(メタデータ) (2023-01-06T18:58:09Z) - OneFlow: Redesign the Distributed Deep Learning Framework from Scratch [17.798586916628174]
OneFlowは、SBP(スプリット、ブロードキャスト、部分値)の抽象化とアクターモデルに基づく、新しい分散トレーニングフレームワークである。
SBPは既存のフレームワークよりも、データ並列処理やモデル並列処理のプログラミングがずっと簡単になります。
OneFlowは、最先端のフレームワーク上に構築された多くの有名なカスタマイズライブラリよりも優れています。
論文 参考訳(メタデータ) (2021-10-28T11:32:14Z) - Model-Parallel Model Selection for Deep Learning Systems [0.0]
機械学習(ML)トレーニングの非効率性は、ほとんどのユーザにとって最先端モデルの実用的使用を防止する。
多くのML実践者は、計算要求を複数のデバイスに分散させる方法として、並列性をモデル化している。
タスクとモデル並列性を組み合わせた新しい形式の「シャード並列性」を提案し、それをHydraという名前のフレームワークにパッケージ化する。
論文 参考訳(メタデータ) (2021-07-14T03:20:37Z) - TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale
Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。
TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文 参考訳(メタデータ) (2021-02-16T07:34:32Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z) - FlexServe: Deployment of PyTorch Models as Flexible REST Endpoints [6.730473762151365]
現代のソフトウェアシステムへの人工知能機能の統合は、クラウドベースのサービスと表現型状態転送アーキテクチャを使用することで、ますます単純化されている。
モデル証明とモデル進化に対する制御の欠如に関する不十分な情報は、厳格なセキュリティ要件を持つ多くの運用環境において、これらのサービスをより広く採用する上で障害となる。
論文 参考訳(メタデータ) (2020-02-29T18:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。