論文の概要: Nebula-I: A General Framework for Collaboratively Training Deep Learning
Models on Low-Bandwidth Cloud Clusters
- arxiv url: http://arxiv.org/abs/2205.09470v1
- Date: Thu, 19 May 2022 11:10:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-20 14:18:59.006652
- Title: Nebula-I: A General Framework for Collaboratively Training Deep Learning
Models on Low-Bandwidth Cloud Clusters
- Title(参考訳): nebula-i:低帯域クラウドクラスタ上でディープラーニングモデルを協調的にトレーニングするための汎用フレームワーク
- Authors: Yang Xiang, Zhihua Wu, Weibao Gong, Siyu Ding, Xianjie Mo, Yuang Liu,
Shuohuan Wang, Peng Liu, Yongshuai Hou, Long Li, Bin Wang, Shaohuai Shi,
Yaqian Han, Yue Yu, Ge Li, Yu Sun, Yanjun Ma, Dianhai Yu
- Abstract要約: 遠隔ヘテロジニアスクラスタ上でディープラーニングモデルを協調訓練するための一般的なフレームワークであるNebula-Iを導入する。
Nebula-IはPaddlePaddleディープラーニングフレームワークで実装されている。
実験により,提案フレームワークは,良好なNLP性能を維持しつつ,トレーニング効率を大幅に向上できることが示された。
- 参考スコア(独自算出の注目度): 39.85470606966918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ever-growing model size and scale of compute have attracted increasing
interests in training deep learning models over multiple nodes. However, when
it comes to training on cloud clusters, especially across remote clusters, huge
challenges are faced. In this work, we introduce a general framework, Nebula-I,
for collaboratively training deep learning models over remote heterogeneous
clusters, the connections between which are low-bandwidth wide area networks
(WANs). We took natural language processing (NLP) as an example to show how
Nebula-I works in different training phases that include: a) pre-training a
multilingual language model using two remote clusters; and b) fine-tuning a
machine translation model using knowledge distilled from pre-trained models,
which run through the most popular paradigm of recent deep learning. To balance
the accuracy and communication efficiency, in Nebula-I, parameter-efficient
training strategies, hybrid parallel computing methods and adaptive
communication acceleration techniques are jointly applied. Meanwhile, security
strategies are employed to guarantee the safety, reliability and privacy in
intra-cluster computation and inter-cluster communication. Nebula-I is
implemented with the PaddlePaddle deep learning framework, which can support
collaborative training over heterogeneous hardware, e.g. GPU and NPU.
Experiments demonstrate that the proposed framework could substantially
maximize the training efficiency while preserving satisfactory NLP performance.
By using Nebula-I, users can run large-scale training tasks over cloud clusters
with minimum developments, and the utility of existed large pre-trained models
could be further promoted. We also introduced new state-of-the-art results on
cross-lingual natural language inference tasks, which are generated based upon
a novel learning framework and Nebula-I.
- Abstract(参考訳): 増大するモデルサイズと計算規模は、複数のノードにわたるディープラーニングモデルのトレーニングに関心を惹きつけている。
しかし、クラウドクラスタ、特にリモートクラスタでのトレーニングに関しては、大きな課題に直面しています。
本稿では,低帯域幅広域ネットワーク(wans)間の接続である遠隔異種クラスタ上でのディープラーニングモデルを協調的にトレーニングするための汎用フレームワークnebula-iを提案する。
自然言語処理(NLP)を例として、Nebula-Iが次のような異なるトレーニングフェーズでどのように動作するかを示しました。
a) 2つの遠隔クラスタを用いた多言語モデルの事前学習
b) 事前訓練されたモデルから抽出した知識を用いて機械翻訳モデルを微調整すること。
精度と通信効率のバランスをとるため、nebula-iではパラメータ効率の良いトレーニング戦略、ハイブリッド並列計算手法、適応的通信加速技術が併用される。
一方、クラスタ内計算とクラスタ間通信の安全性、信頼性、プライバシを保証するためにセキュリティ戦略が採用されている。
Nebula-IはPaddlePaddleディープラーニングフレームワークで実装されており、GPUやNPUといった異種ハードウェア上での協調トレーニングをサポートする。
実験により,提案フレームワークは,良好なNLP性能を維持しつつ,トレーニング効率を大幅に向上できることが示された。
Nebula-Iを使用することで、ユーザは最小限の開発でクラウドクラスタ上で大規模なトレーニングタスクを実行できる。
また,新しい学習フレームワークとnebula-iに基づいて生成された言語間自然言語推論タスクに関する最新の結果も紹介した。
関連論文リスト
- Research on Key Technologies for Cross-Cloud Federated Training of Large Language Models [7.762524368844918]
クロスクラウドフェデレーショントレーニングは、単一のクラウドプラットフォームのリソースボトルネックに対処するための、新たなアプローチを提供する。
本研究では、データパーティショニングと分散、通信最適化、モデル集約アルゴリズム、異種クラウドプラットフォームとの互換性など、クロスクラウドフェデレーショントレーニングの重要技術について分析する。
論文 参考訳(メタデータ) (2024-10-24T19:57:17Z) - ATOM: Asynchronous Training of Massive Models for Deep Learning in a Decentralized Environment [7.916080032572087]
Atomは、分散化された環境で巨大なモデルの非同期トレーニング用に設計された、レジリエントな分散トレーニングフレームワークである。
atomは、スワップをシームレスにモデルし、トレーニングスループットを最適化するために複数のコピーを同時にトレーニングすることで、1つのホスト(ピア)に完全なLLMを適合させることを目的としている。
異なるGPT-3モデル構成を用いて実験したところ、最適ネットワーク接続のシナリオでは、原子は最先端の分散パイプライン並列化アプローチを組み込んだ場合、トレーニング効率を最大20倍に向上させることができることがわかった。
論文 参考訳(メタデータ) (2024-03-15T17:43:43Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - FedBone: Towards Large-Scale Federated Multi-Task Learning [13.835972363413884]
現実世界のアプリケーションでは、視覚と自然言語のタスクは、高レベルの抽象的特徴を抽出するために大規模なモデルを必要とする。
既存のHFML手法は、マルチタスク最適化における勾配競合の影響を無視している。
我々はFedBoneと呼ばれる革新的なフレームワークを提案し、より優れた一般化を伴う大規模モデルの構築を可能にする。
論文 参考訳(メタデータ) (2023-06-30T08:19:38Z) - Personalizing Federated Learning with Over-the-Air Computations [84.8089761800994]
フェデレートされたエッジ学習は、プライバシー保護の方法で無線ネットワークのエッジにインテリジェンスをデプロイする、有望な技術である。
このような設定の下で、複数のクライアントは、エッジサーバの調整の下でグローバルジェネリックモデルを協調的にトレーニングする。
本稿では,アナログオーバー・ザ・エア計算を用いて通信ボトルネックに対処する分散トレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2023-02-24T08:41:19Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - Local Learning with Neuron Groups [15.578925277062657]
局所学習はモデル並列性に対するアプローチであり、標準のエンドツーエンドの学習設定を取り除く。
本研究では,局所学習をレイヤやモジュールをサブコンポーネントに分割する方法について検討する。
論文 参考訳(メタデータ) (2023-01-18T16:25:10Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - Distributed Training of Deep Learning Models: A Taxonomic Perspective [11.924058430461216]
分散ディープラーニングシステム(DDLS)は、クラスタの分散リソースを利用することで、ディープニューラルネットワークモデルをトレーニングする。
私たちは、独立したマシンのクラスタでディープニューラルネットワークをトレーニングする際の、作業の基本原則に光を当てることを目指しています。
論文 参考訳(メタデータ) (2020-07-08T08:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。