論文の概要: ASTRA-sim2.0: Modeling Hierarchical Networks and Disaggregated Systems
for Large-model Training at Scale
- arxiv url: http://arxiv.org/abs/2303.14006v1
- Date: Fri, 24 Mar 2023 14:00:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 14:20:13.571802
- Title: ASTRA-sim2.0: Modeling Hierarchical Networks and Disaggregated Systems
for Large-model Training at Scale
- Title(参考訳): ASTRA-sim2.0:大規模モデル学習のための階層型ネットワークと分散システムの構築
- Authors: William Won, Taekyung Heo, Saeed Rashidi, Srinivas Sridharan,
Sudarshan Srinivasan, Tushar Krishna
- Abstract要約: 私たちはオープンソースのASTRA-simインフラストラクチャを拡張して、最先端の分散トレーニングモデルとプラットフォームをモデリングします。
新たな分散モデルとプラットフォームをターゲットにした総合的なケーススタディを実行しています。
- 参考スコア(独自算出の注目度): 5.217665236079274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As deep learning models and input data are scaling at an unprecedented rate,
it is inevitable to move towards distributed training platforms to fit the
model and increase training throughput. State-of-the-art approaches and
techniques, such as wafer-scale nodes, multi-dimensional network topologies,
disaggregated memory systems, and parallelization strategies, have been
actively adopted by emerging distributed training systems. This results in a
complex SW/HW co-design stack of distributed training, necessitating a
modeling/simulation infrastructure for design-space exploration. In this paper,
we extend the open-source ASTRA-sim infrastructure and endow it with the
capabilities to model state-of-the-art and emerging distributed training models
and platforms. More specifically, (i) we enable ASTRA-sim to support arbitrary
model parallelization strategies via a graph-based training-loop
implementation, (ii) we implement a parameterizable multi-dimensional
heterogeneous topology generation infrastructure with analytical performance
estimates enabling simulating target systems at scale, and (iii) we enhance the
memory system modeling to support accurate modeling of in-network collective
communication and disaggregated memory systems. With such capabilities, we run
comprehensive case studies targeting emerging distributed models and platforms.
This infrastructure lets system designers swiftly traverse the complex
co-design stack and give meaningful insights when designing and deploying
distributed training platforms at scale.
- Abstract(参考訳): ディープラーニングモデルと入力データが前例のない速度でスケールしているため、モデルを適合させ、トレーニングスループットを向上させるために、分散トレーニングプラットフォームに移行することは避けられない。
ウエハスケールノード、多次元ネットワークトポロジ、分散メモリシステム、並列化戦略といった最先端のアプローチと技術は、新興の分散トレーニングシステムに積極的に採用されている。
これにより、分散トレーニングの複雑なSW/HW共同設計スタックが実現され、設計空間探索のためのモデリング/シミュレーションインフラストラクチャが必要とされる。
本稿では,オープンソースのASTRA-simインフラストラクチャを拡張し,最先端の分散トレーニングモデルとプラットフォームをモデル化する機能を備える。
具体的には
i)ASTRA-simがグラフベースのトレーニングループ実装を通じて任意のモデル並列化戦略をサポートできるようにする。
(ii)対象システムを大規模にシミュレーション可能な解析性能推定を伴うパラメータ可能な多次元不均質トポロジー生成基盤を実装した。
(iii)ネットワーク内集団通信と分散メモリシステムの正確なモデリングを支援するために,メモリシステムのモデリングを強化する。
このような機能により、新興の分散モデルとプラットフォームをターゲットにした包括的なケーススタディを実行します。
このインフラストラクチャは、システム設計者が複雑な共同設計スタックを素早く横断し、分散トレーニングプラットフォームを大規模に設計およびデプロイする際に意味のある洞察を与える。
関連論文リスト
- Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Vertical Federated Learning over Cloud-RAN: Convergence Analysis and
System Optimization [82.12796238714589]
高速かつ正確なモデルアグリゲーションを実現するために,クラウド無線アクセスネットワーク(Cloud-RAN)ベースの垂直FLシステムを提案する。
アップリンクとダウンリンクの両方の伝送を考慮した垂直FLアルゴリズムの収束挙動を特徴付ける。
我々は,連続凸近似と代替凸探索に基づくシステム最適化アルゴリズムを開発した,連系トランシーバとフロントホール量子化設計によるシステム最適化フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-04T09:26:03Z) - On Optimizing the Communication of Model Parallelism [74.15423270435949]
大規模モデル並列ディープラーニング(DL)における新しい重要なコミュニケーションパターンについて検討する。
クロスメッシュリシャーディングでは、シャードテンソルをソースデバイスメッシュから宛先デバイスメッシュに送信する必要がある。
本稿では、効率的な放送ベースの通信システムと「重複しやすい」パイプラインスケジュールという、クロスメシュ・リシャーディングに対処するための2つのコントリビューションを提案する。
論文 参考訳(メタデータ) (2022-11-10T03:56:48Z) - State-driven Implicit Modeling for Sparsity and Robustness in Neural
Networks [3.604879434384177]
SIM(State-driven Implicit Modeling)と呼ばれる暗黙的モデルをトレーニングするための新しいアプローチを提案する。
SIMは内部の状態と出力をベースラインモデルと一致させ、コストのかかる後方計算を回避する。
本稿では,データセット上でトレーニングされたベースラインモデルの空間性とロバスト性を大幅に向上するためにSIMアプローチを適用する方法を示す。
論文 参考訳(メタデータ) (2022-09-19T23:58:48Z) - Edge-assisted Democratized Learning Towards Federated Analytics [67.44078999945722]
本稿では,エッジ支援型民主化学習機構であるEdge-DemLearnの階層的学習構造を示す。
また、Edge-DemLearnを柔軟なモデルトレーニングメカニズムとして検証し、リージョンに分散制御と集約の方法論を構築する。
論文 参考訳(メタデータ) (2020-12-01T11:46:03Z) - S2RMs: Spatially Structured Recurrent Modules [105.0377129434636]
モジュール構造とテンポラル構造の両方を同時に活用できる動的構造を利用するための一歩を踏み出します。
我々のモデルは利用可能なビューの数に対して堅牢であり、追加のトレーニングなしで新しいタスクに一般化できる。
論文 参考訳(メタデータ) (2020-07-13T17:44:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。