論文の概要: HetSeq: Distributed GPU Training on Heterogeneous Infrastructure
- arxiv url: http://arxiv.org/abs/2009.14783v1
- Date: Fri, 25 Sep 2020 19:57:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 23:35:14.596738
- Title: HetSeq: Distributed GPU Training on Heterogeneous Infrastructure
- Title(参考訳): HetSeq: 異種インフラストラクチャ上での分散GPUトレーニング
- Authors: Yifan Ding, Nicholas Botzer and Tim Weninger
- Abstract要約: HetSeqは、異種インフラストラクチャ上で大規模なニューラルネットワークモデルをトレーニングする機能を提供するソフトウェアパッケージである。
変換器変換とBERT言語モデルによる実験により、HetSeqは異種システム上でスケール可能であることが示された。
- 参考スコア(独自算出の注目度): 13.689451154861203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern deep learning systems like PyTorch and Tensorflow are able to train
enormous models with billions (or trillions) of parameters on a distributed
infrastructure. These systems require that the internal nodes have the same
memory capacity and compute performance. Unfortunately, most organizations,
especially universities, have a piecemeal approach to purchasing computer
systems resulting in a heterogeneous infrastructure, which cannot be used to
compute large models. The present work describes HetSeq, a software package
adapted from the popular PyTorch package that provides the capability to train
large neural network models on heterogeneous infrastructure. Experiments with
transformer translation and BERT language model shows that HetSeq scales over
heterogeneous systems. HetSeq can be easily extended to other models like image
classification. Package with supported document is publicly available at
https://github.com/yifding/hetseq.
- Abstract(参考訳): PyTorchやTensorflowといった現代のディープラーニングシステムは、分散インフラストラクチャ上で数十億のパラメータを持つ巨大なモデルをトレーニングすることができる。
これらのシステムでは、内部ノードは同じメモリ容量と計算性能を必要とする。
残念なことに、ほとんどの組織、特に大学は、大規模なモデルを計算できない不均一なインフラをもたらすコンピュータシステムを購入するための断片的なアプローチを持っている。
HetSeqは、人気の高いPyTorchパッケージから適応したソフトウェアパッケージで、異種インフラストラクチャ上で大規模なニューラルネットワークモデルをトレーニングする機能を提供する。
トランスフォーマー変換とbert言語モデルを用いた実験により、hetseqは異種システム上でスケールできることが示されている。
HetSeqは画像分類などの他のモデルにも容易に拡張できる。
サポートされているドキュメントのパッケージはhttps://github.com/yifding/hetseqで公開されている。
関連論文リスト
- FlexModel: A Framework for Interpretability of Distributed Large
Language Models [0.0]
マルチGPUとマルチノード構成に分散したモデルを扱うための,合理化されたインターフェースを提供するソフトウェアパッケージであるFlexModelを紹介する。
このライブラリは既存のモデル配布ライブラリと互換性があり、PyTorchモデルをカプセル化している。
ユーザ登録可能なHookFunctionを公開して,分散モデル内部との直接的なインタラクションを容易にする。
論文 参考訳(メタデータ) (2023-12-05T21:19:33Z) - TensorBank: Tensor Lakehouse for Foundation Model Training [1.8811254972035676]
基礎モデルトレーニングのための高次元データのストリーミングと保存は、自然言語を超えた基礎モデルの台頭によって重要な要件となった。
我々は、複雑なリレーショナルクエリに基づいて、Cloud Object Store(COS)からGPUメモリへテンソルをワイヤスピードでストリーミングできるペタバイトスケールテンソルレイクハウスであるBankを紹介した。
このアーキテクチャは、コンピュータビジョン、計算神経科学、生物学的シーケンス分析などの他のユースケースに一般化される。
論文 参考訳(メタデータ) (2023-09-05T10:00:33Z) - On Optimizing the Communication of Model Parallelism [74.15423270435949]
大規模モデル並列ディープラーニング(DL)における新しい重要なコミュニケーションパターンについて検討する。
クロスメッシュリシャーディングでは、シャードテンソルをソースデバイスメッシュから宛先デバイスメッシュに送信する必要がある。
本稿では、効率的な放送ベースの通信システムと「重複しやすい」パイプラインスケジュールという、クロスメシュ・リシャーディングに対処するための2つのコントリビューションを提案する。
論文 参考訳(メタデータ) (2022-11-10T03:56:48Z) - Decentralized Training of Foundation Models in Heterogeneous
Environments [77.47261769795992]
GPT-3 や PaLM のようなトレーニング基盤モデルは、非常に高価である。
ヘテロジニアスネットワーク上での分散型システムにおけるモデル並列化を用いた大規模基盤モデルのトレーニングに関する最初の研究について述べる。
論文 参考訳(メタデータ) (2022-06-02T20:19:51Z) - CLCNet: Rethinking of Ensemble Modeling with Classification Confidence
Network [1.5686134908061993]
CLCNetは、分類モデルが入力サンプルを正しく分類するかどうかを決定することができる。
我々は,複数のSOTA分類モデルからなる単純なカスケード構造システムにおいて,CLCNetを利用することができる。
論文 参考訳(メタデータ) (2022-05-19T15:07:53Z) - Scaling Up Models and Data with $\texttt{t5x}$ and $\texttt{seqio}$ [118.04625413322827]
$texttt5x$と$texttseqio$は、言語モデルの構築とトレーニングのためのオープンソースのソフトウェアライブラリである。
これらのライブラリは、複数のテラバイトのトレーニングデータを持つデータセット上で、数十億のパラメータを持つモデルをトレーニングするために使用されています。
論文 参考訳(メタデータ) (2022-03-31T17:12:13Z) - LightSeq: Accelerated Training for Transformer-based Models on GPUs [19.02791119065971]
LightSeqは、GPU上でTransformerベースのモデルの効率的なトレーニングを行うシステムである。
BERT (encoder-only)、GPT (decoder-only)、Transformer (encoder-decoder)など、さまざまなネットワークアーキテクチャをサポートしている。
論文 参考訳(メタデータ) (2021-10-12T03:17:03Z) - CREPO: An Open Repository to Benchmark Credal Network Algorithms [78.79752265884109]
クレダルネットワークは、確率質量関数の集合であるクレダルに基づく不正確な確率的グラフィカルモデルである。
CREMAと呼ばれるJavaライブラリが最近リリースされ、クレダルネットワークをモデル化し、処理し、クエリする。
我々は,これらのモデル上での推論タスクの正確な結果とともに,合成クレダルネットワークのオープンリポジトリであるcrrepoを提案する。
論文 参考訳(メタデータ) (2021-05-10T07:31:59Z) - Diverse Branch Block: Building a Convolution as an Inception-like Unit [123.59890802196797]
畳み込みニューラルネットワーク(Convolutional Neural Network、ConvNet)のユニバーサルビルディングブロックを提案し、推論時間コストなしでパフォーマンスを向上させる。
Diverse Branch Block(DBB)は、異なるスケールと複雑さの多様なブランチを組み合わせることで、単一の畳み込みの表現能力を高めます。
トレーニング後、DBBを単一のConv層に等価に変換してデプロイすることができる。
論文 参考訳(メタデータ) (2021-03-24T18:12:00Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。