論文の概要: Deep Generative Models that Solve PDEs: Distributed Computing for
Training Large Data-Free Models
- arxiv url: http://arxiv.org/abs/2007.12792v1
- Date: Fri, 24 Jul 2020 22:42:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 06:14:45.525054
- Title: Deep Generative Models that Solve PDEs: Distributed Computing for
Training Large Data-Free Models
- Title(参考訳): PDEを解く深層生成モデル:大規模データフリーモデルのトレーニングのための分散コンピューティング
- Authors: Sergio Botelho, Ameya Joshi, Biswajit Khara, Soumik Sarkar, Chinmay
Hegde, Santi Adavani, Baskar Ganapathysubramanian
- Abstract要約: 科学機械学習(SciML)の最近の進歩は、複雑な偏微分方程式(PDE)を解く新しいニューラルネットワークアーキテクチャを訓練する可能性を開く。
本稿では、これらの大規模SciMLモデルをトレーニングする2つの課題を解決するために、データ並列分散ディープラーニングのためのソフトウェアフレームワークについて報告する。
私たちのフレームワークは、(a)プロセス数に依存しない損失整合性、(b)同期バッチ正規化、(c)分散高階最適化方法など、いくつかのアウトオブボックス機能を提供します。
- 参考スコア(独自算出の注目度): 25.33147292369218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in scientific machine learning (SciML) has opened up the
possibility of training novel neural network architectures that solve complex
partial differential equations (PDEs). Several (nearly data free) approaches
have been recently reported that successfully solve PDEs, with examples
including deep feed forward networks, generative networks, and deep
encoder-decoder networks. However, practical adoption of these approaches is
limited by the difficulty in training these models, especially to make
predictions at large output resolutions ($\geq 1024 \times 1024$). Here we
report on a software framework for data parallel distributed deep learning that
resolves the twin challenges of training these large SciML models - training in
reasonable time as well as distributing the storage requirements. Our framework
provides several out of the box functionality including (a) loss integrity
independent of number of processes, (b) synchronized batch normalization, and
(c) distributed higher-order optimization methods. We show excellent
scalability of this framework on both cloud as well as HPC clusters, and report
on the interplay between bandwidth, network topology and bare metal vs cloud.
We deploy this approach to train generative models of sizes hitherto not
possible, showing that neural PDE solvers can be viably trained for practical
applications. We also demonstrate that distributed higher-order optimization
methods are $2-3\times$ faster than stochastic gradient-based methods and
provide minimal convergence drift with higher batch-size.
- Abstract(参考訳): 科学機械学習(SciML)の最近の進歩は、複雑な偏微分方程式(PDE)を解く新しいニューラルネットワークアーキテクチャを訓練する可能性を開いた。
最近では、ディープフィードフォワードネットワーク、ジェネレーティブネットワーク、ディープエンコーダデコーダネットワークなど、PDEの解決に成功しているいくつかの(データフリーに近い)アプローチが報告されている。
しかしながら、これらのアプローチの実践的採用は、これらのモデルのトレーニングが困難であること、特に大規模な出力解像度での予測(\geq 1024 \times 1024$)によって制限される。
本稿では,このような大規模scimlモデルのトレーニングと,ストレージ要件の分散という2つの課題を解決する,データ並列分散ディープラーニングのためのソフトウェアフレームワークについて報告する。
私たちのフレームワークは、いくつかのアウトオブボックス機能を提供しています。
a) プロセス数に依存しない損失整合性
(b)同期バッチ正規化、及び
(c)高階最適化法を分散した。
クラウドとHPCクラスタの両方において,このフレームワークの優れたスケーラビリティを示し,帯域幅,ネットワークトポロジ,ベアメタル対クラウドの相互作用について報告する。
提案手法は,ニューラルネットワーク型PDEソルバが実用的な応用に有効に訓練可能であることを示すため,実現不可能なサイズの生成モデルをトレーニングするために展開する。
また,分散高次最適化法は確率勾配法よりも2~3\times$高速であり,バッチサイズの高い最小収束ドリフトを提供することを示した。
関連論文リスト
- Partitioned Neural Network Training via Synthetic Intermediate Labels [0.0]
GPUメモリの制約は、そのような巨大なモデルをトレーニングする上で、注目すべきボトルネックになっている。
この研究は、モデルをGPU間で分割し、個々のセグメントをトレーニングするために合成中間ラベルを生成することを提唱する。
このアプローチは、モデル精度を維持しながらデータ通信を最小限に抑える、より効率的なトレーニングプロセスをもたらす。
論文 参考訳(メタデータ) (2024-03-17T13:06:29Z) - ATOM: Asynchronous Training of Massive Models for Deep Learning in a Decentralized Environment [7.916080032572087]
Atomは、分散化された環境で巨大なモデルの非同期トレーニング用に設計された、レジリエントな分散トレーニングフレームワークである。
atomは、スワップをシームレスにモデルし、トレーニングスループットを最適化するために複数のコピーを同時にトレーニングすることで、1つのホスト(ピア)に完全なLLMを適合させることを目的としている。
異なるGPT-3モデル構成を用いて実験したところ、最適ネットワーク接続のシナリオでは、原子は最先端の分散パイプライン並列化アプローチを組み込んだ場合、トレーニング効率を最大20倍に向上させることができることがわかった。
論文 参考訳(メタデータ) (2024-03-15T17:43:43Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Training Deep Surrogate Models with Large Scale Online Learning [48.7576911714538]
ディープラーニングアルゴリズムは、PDEの高速解を得るための有効な代替手段として登場した。
モデルは通常、ソルバによって生成された合成データに基づいてトレーニングされ、ディスクに格納され、トレーニングのために読み返される。
ディープサロゲートモデルのためのオープンソースのオンライントレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-28T12:02:27Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - Supernet Training for Federated Image Classification under System
Heterogeneity [15.2292571922932]
本研究では,2つのシナリオ,すなわちフェデレーション・オブ・スーパーネット・トレーニング(FedSup)を考えるための新しい枠組みを提案する。
フェデレートラーニング(FL)のモデルアグリゲーション段階でのパラメータの平均化は、スーパーネットトレーニングにおけるウェイトシェアリングとどのように似ているかに着想を得ている。
本フレームワークでは,通信コストの削減とトレーニングオーバーヘッドの低減のために,放送段階のクライアントにサブモデルを送信することで,効率的なアルゴリズム(E-FedSup)を提案する。
論文 参考訳(メタデータ) (2022-06-03T02:21:01Z) - Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。
我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文 参考訳(メタデータ) (2021-06-25T22:08:51Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。