論文の概要: Hulk: Graph Neural Networks for Optimizing Regionally Distributed
Computing Systems
- arxiv url: http://arxiv.org/abs/2302.13741v1
- Date: Mon, 27 Feb 2023 13:06:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 15:36:44.066267
- Title: Hulk: Graph Neural Networks for Optimizing Regionally Distributed
Computing Systems
- Title(参考訳): hulk: 地域分散コンピューティングシステム最適化のためのグラフニューラルネットワーク
- Authors: Zhengqing Yuan, Huiwen Xue, Chao Zhang, Yongming Liu
- Abstract要約: 本稿では,修正グラフニューラルネットワークを用いて分散コンピューティングシステムを最適化するHulkという新しいソリューションを提案する。
実験でHulkを使用することで、分散システム上で大規模なディープラーニングモデルをトレーニングする時間の効率を20%以上向上することができたのです。
- 参考スコア(独自算出の注目度): 9.187462935211427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large deep learning models have shown great potential for delivering
exceptional results in various applications. However, the training process can
be incredibly challenging due to the models' vast parameter sizes, often
consisting of hundreds of billions of parameters. Common distributed training
methods, such as data parallelism, tensor parallelism, and pipeline
parallelism, demand significant data communication throughout the process,
leading to prolonged wait times for some machines in physically distant
distributed systems. To address this issue, we propose a novel solution called
Hulk, which utilizes a modified graph neural network to optimize distributed
computing systems. Hulk not only optimizes data communication efficiency
between different countries or even different regions within the same city, but
also provides optimal distributed deployment of models in parallel. For
example, it can place certain layers on a machine in a specific region or pass
specific parameters of a model to a machine in a particular location. By using
Hulk in experiments, we were able to improve the time efficiency of training
large deep learning models on distributed systems by more than 20\%. Our open
source collection of unlabeled data:https://github.com/DLYuanGod/Hulk.
- Abstract(参考訳): 大規模なディープラーニングモデルは、様々なアプリケーションで例外的な結果をもたらす大きな可能性を示している。
しかし、モデルの膨大なパラメータサイズのため、トレーニングプロセスは信じられないほど難しく、しばしば数十億のパラメータで構成される。
データ並列性、テンソル並列性、パイプライン並列性といった一般的な分散トレーニング手法は、プロセス全体を通して重要なデータ通信を必要としており、物理的に離れた分散システムにおける一部のマシンの待ち時間が長くなる。
この問題に対処するために,修正グラフニューラルネットワークを用いて分散コンピューティングシステムの最適化を行うHulkという新しいソリューションを提案する。
hulkは、異なる国や同じ都市内の異なる地域間でのデータ通信効率を最適化するだけでなく、並列にモデルの最適な分散配置を提供する。
例えば、特定の領域のマシンに特定のレイヤを配置したり、特定の場所のマシンにモデルの特定のパラメータを渡すことができる。
hulkを実験に使用することにより,大規模ディープラーニングモデルを分散システム上でトレーニングする時間効率を20%以上向上することができた。
ラベルなしデータのオープンソースコレクション:https://github.com/DLYuanGod/Hulk。
関連論文リスト
- Partitioned Neural Network Training via Synthetic Intermediate Labels [0.0]
GPUメモリの制約は、そのような巨大なモデルをトレーニングする上で、注目すべきボトルネックになっている。
この研究は、モデルをGPU間で分割し、個々のセグメントをトレーニングするために合成中間ラベルを生成することを提唱する。
このアプローチは、モデル精度を維持しながらデータ通信を最小限に抑える、より効率的なトレーニングプロセスをもたらす。
論文 参考訳(メタデータ) (2024-03-17T13:06:29Z) - Just One Byte (per gradient): A Note on Low-Bandwidth Decentralized
Language Model Finetuning Using Shared Randomness [86.61582747039053]
分散環境での言語モデルトレーニングは、交換の通信コストによって制限される。
分散微調整を低帯域幅で行うために,共有ランダムネスを用いた最近の作業を拡張した。
論文 参考訳(メタデータ) (2023-06-16T17:59:51Z) - Transfer-Once-For-All: AI Model Optimization for Edge [0.0]
計算訓練コストを一定に抑えた小データセット上でのスーパーネット型トレーニングのためのTransfer-Once-For-All(TOFA)を提案する。
小さなデータから生じる課題を克服するため、TOFAは、統合された半教師付きトレーニング損失を使用して、スーパーネット内のすべての既存のものを同時にトレーニングする。
論文 参考訳(メタデータ) (2023-03-27T04:14:30Z) - Adaptive Parameterization of Deep Learning Models for Federated Learning [85.82002651944254]
Federated Learningは、分散形式でディープニューラルネットワークをトレーニングする方法を提供する。
トレーニング中にモデルパラメータや勾配を定期的に交換する必要があるため、通信オーバーヘッドが発生する。
本稿では,フェデレートラーニングのための並列適応器を提案する。
論文 参考訳(メタデータ) (2023-02-06T17:30:33Z) - Decentralized Training of Foundation Models in Heterogeneous
Environments [77.47261769795992]
GPT-3 や PaLM のようなトレーニング基盤モデルは、非常に高価である。
ヘテロジニアスネットワーク上での分散型システムにおけるモデル並列化を用いた大規模基盤モデルのトレーニングに関する最初の研究について述べる。
論文 参考訳(メタデータ) (2022-06-02T20:19:51Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - LCS: Learning Compressible Subspaces for Adaptive Network Compression at
Inference Time [57.52251547365967]
本稿では,ニューラルネットワークの「圧縮可能な部分空間」を訓練する手法を提案する。
構造的・非構造的空間に対する推定時間における微粒な精度・効率のトレードオフを任意に達成するための結果を示す。
我々のアルゴリズムは、可変ビット幅での量子化にまで拡張し、個別に訓練されたネットワークと同等の精度を実現する。
論文 参考訳(メタデータ) (2021-10-08T17:03:34Z) - GIST: Distributed Training for Large-Scale Graph Convolutional Networks [18.964079367668262]
GISTはハイブリッド層とグラフサンプリング手法であり、グローバルモデルをいくつかの小さなサブGCNに分割する。
この分散フレームワークはモデルのパフォーマンスを改善し、ウォールクロックのトレーニング時間を大幅に短縮します。
GISTは、グラフ機械学習とディープラーニングの既存のギャップを埋めることを目的として、大規模なGCN実験を可能にすることを目指している。
論文 参考訳(メタデータ) (2021-02-20T19:25:38Z) - Benchmarking network fabrics for data distributed training of deep
neural networks [10.067102343753643]
深層モデルの訓練のための大規模な計算要求は、より高速な訓練のための新しい方法の開発を必要としている。
このようなアプローチのひとつに、トレーニングデータを複数の計算ノードに分散する、データ並列アプローチがある。
本稿では,物理ハードウェアの相互接続とネットワーク関連ソフトウェアプリミティブを用いてデータ分散ディープラーニングを実現する効果について検討する。
論文 参考訳(メタデータ) (2020-08-18T17:38:30Z) - Deep Generative Models that Solve PDEs: Distributed Computing for
Training Large Data-Free Models [25.33147292369218]
科学機械学習(SciML)の最近の進歩は、複雑な偏微分方程式(PDE)を解く新しいニューラルネットワークアーキテクチャを訓練する可能性を開く。
本稿では、これらの大規模SciMLモデルをトレーニングする2つの課題を解決するために、データ並列分散ディープラーニングのためのソフトウェアフレームワークについて報告する。
私たちのフレームワークは、(a)プロセス数に依存しない損失整合性、(b)同期バッチ正規化、(c)分散高階最適化方法など、いくつかのアウトオブボックス機能を提供します。
論文 参考訳(メタデータ) (2020-07-24T22:42:35Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。