論文の概要: GSPMD: General and Scalable Parallelization for ML Computation Graphs
- arxiv url: http://arxiv.org/abs/2105.04663v1
- Date: Mon, 10 May 2021 20:54:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-12 13:47:17.455383
- Title: GSPMD: General and Scalable Parallelization for ML Computation Graphs
- Title(参考訳): GSPMD:ML計算グラフのための汎用的でスケーラブルな並列化
- Authors: Yuanzhong Xu, HyoukJoong Lee, Dehao Chen, Blake Hechtman, Yanping
Huang, Rahul Joshi, Maxim Krikun, Dmitry Lepikhin, Andy Ly, Marcello
Maggioni, Ruoming Pang, Noam Shazeer, Shibo Wang, Tao Wang, Yonghui Wu,
Zhifeng Chen
- Abstract要約: GSPMDは、機械学習計算グラフのための自動コンパイラベースの並列化システムである。
すべてのデバイスに対して単一のプログラムを生成し、実行時のパーティションIDに基づいて動作を調整する。
- 参考スコア(独自算出の注目度): 35.435662283500314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present GSPMD, an automatic, compiler-based parallelization system for
common machine learning computation graphs. It allows users to write programs
in the same way as for a single device, then give hints through a few
annotations on how to distribute tensors, based on which GSPMD will parallelize
the computation. Its representation of partitioning is simple yet general,
allowing it to express different or mixed paradigms of parallelism on a wide
variety of models.
GSPMD infers the partitioning for every operator in the graph based on
limited user annotations, making it convenient to scale up existing
single-device programs. It solves several technical challenges for production
usage, such as static shape constraints, uneven partitioning, exchange of halo
data, and nested operator partitioning. These techniques allow GSPMD to achieve
50% to 62% compute utilization on 128 to 2048 Cloud TPUv3 cores for models with
up to one trillion parameters.
GSPMD produces a single program for all devices, which adjusts its behavior
based on a run-time partition ID, and uses collective operators for
cross-device communication. This property allows the system itself to be
scalable: the compilation time stays constant with increasing number of
devices.
- Abstract(参考訳): 本稿では,共通機械学習計算グラフの自動並列化システムgspmdを提案する。
ユーザは単一のデバイスと同じようにプログラムを書くことができ、GSPMDが計算を並列化するテンソルの配布方法に関するいくつかのアノテーションを通じてヒントを与えることができる。
パーティショニングの表現は単純だが一般的なものであり、様々なモデルで異なるあるいは混合した並列性のパラダイムを表現できる。
GSPMDは、制限されたユーザアノテーションに基づいて、グラフ内のすべてのオペレータのパーティショニングを推論するので、既存の単一デバイスプログラムをスケールアップするのに便利である。
静的な形状制約、均一なパーティショニング、ハロデータの交換、ネストされたオペレータパーティショニングなど、プロダクション使用に関するいくつかの技術的課題を解決する。
これらの技術により、gspmdは最大1兆のパラメータを持つモデルで、128から2048のクラウドtpuv3コアで50%から62%の計算利用を達成できる。
GSPMDは、実行時のパーティションIDに基づいて動作を調整し、クロスデバイス通信に集合演算子を使用する全デバイス向けの単一のプログラムを生成する。
この特性により、システム自体のスケーラビリティが向上し、コンパイル時間はデバイス数の増加とともに一定に保たれる。
関連論文リスト
- Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - OMG-Seg: Is One Model Good Enough For All Segmentation? [83.17068644513144]
OMG-Segは、タスク固有のクエリと出力を持つトランスフォーマーベースのエンコーダデコーダアーキテクチャである。
OMG-Segは10以上の異なるセグメンテーションタスクをサポートできるが、計算とパラメータのオーバーヘッドを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-01-18T18:59:34Z) - Performance Optimization using Multimodal Modeling and Heterogeneous GNN [1.304892050913381]
本稿では,複数のタスクに適応可能な並列コード領域のチューニング手法を提案する。
本稿では、IRに基づくプログラミングモデルを分析し、タスク固有の性能最適化を行う。
実験の結果,このマルチモーダル学習に基づくアプローチは,すべての実験において最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-04-25T04:27:43Z) - ParaGraph: Weighted Graph Representation for Performance Optimization of
HPC Kernels [1.304892050913381]
抽象構文木を拡張した並列アプリケーションのためのグラフベースの新しいプログラム表現を提案する。
提案した表現は,OpenMPコード領域のランタイムを予測するために,グラフニューラルネットワーク(GNN)をトレーニングすることで評価する。
その結果,本手法は実効性があり,実行時予測では 0.004 から 0.01 に RMSE を正規化していることがわかった。
論文 参考訳(メタデータ) (2023-04-07T05:52:59Z) - GSplit: Scaling Graph Neural Network Training on Large Graphs via Split-Parallelism [6.3568605707961]
ミニバッチトレーニングは、大きなグラフ上でグラフニューラルネットワーク(GNN)をトレーニングするために一般的に使用される。
本稿では,スプリット・パララリズム(split parallelism)と呼ばれる,ハイブリッド並列型ミニバッチ・トレーニングパラダイムを提案する。
分割並列性はDGLやQuiver,P3$といった最先端のミニバッチトレーニングシステムよりも優れています。
論文 参考訳(メタデータ) (2023-03-24T03:28:05Z) - ManiSkill2: A Unified Benchmark for Generalizable Manipulation Skills [24.150758623016195]
我々は、一般化可能な操作スキルのための次世代のSAPIEN ManiSkillベンチマークであるManiSkill2を紹介する。
ManiSkill2には、2000以上のオブジェクトモデルと4M以上のデモフレームを備えた20の操作タスクファミリが含まれている。
幅広いアルゴリズムをサポートする統一インターフェースと評価プロトコルを定義する。
高速な視覚入力学習アルゴリズムにより、CNNベースのポリシーでサンプルを約2000 FPSで収集することができる。
論文 参考訳(メタデータ) (2023-02-09T14:24:01Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - Learning Massive Graph Embeddings on a Single Machine [11.949017733445624]
グラフ埋め込みはグラフの各ノード(および/またはエッジタイプ)に対する固定長ベクトル表現である。
大規模グラフの埋め込みを学習するための現在のシステムは、データ移動によってボトルネックとなる。
グラフ埋め込みの効率的な学習システムであるgaiusを提案する。
論文 参考訳(メタデータ) (2021-01-20T23:17:31Z) - Straggler-aware Distributed Learning: Communication Computation Latency
Trade-off [56.08535873173518]
ストラグワーカーは冗長な計算を割り当て、データと計算をまたいでコーディングすることで許容できる。
既存のほとんどのスキームでは、各非ストラグリングワーカーは、全ての計算を完了した後、1イテレーションごとに1つのメッセージをパラメータサーバ(PS)に送信する。
このような制限を課すことで、ストレグリング動作の不正確な予測による過剰計算と、ストレグラー/非ストレグラーとしての作業員の処理による未使用の2つの主な欠点が生じる。
論文 参考訳(メタデータ) (2020-04-10T08:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。