論文の概要: Nebula-I: A General Framework for Collaboratively Training Deep Learning
Models on Low-Bandwidth Cloud Clusters
- arxiv url: http://arxiv.org/abs/2205.09470v1
- Date: Thu, 19 May 2022 11:10:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-20 14:18:59.006652
- Title: Nebula-I: A General Framework for Collaboratively Training Deep Learning
Models on Low-Bandwidth Cloud Clusters
- Title(参考訳): nebula-i:低帯域クラウドクラスタ上でディープラーニングモデルを協調的にトレーニングするための汎用フレームワーク
- Authors: Yang Xiang, Zhihua Wu, Weibao Gong, Siyu Ding, Xianjie Mo, Yuang Liu,
Shuohuan Wang, Peng Liu, Yongshuai Hou, Long Li, Bin Wang, Shaohuai Shi,
Yaqian Han, Yue Yu, Ge Li, Yu Sun, Yanjun Ma, Dianhai Yu
- Abstract要約: 遠隔ヘテロジニアスクラスタ上でディープラーニングモデルを協調訓練するための一般的なフレームワークであるNebula-Iを導入する。
Nebula-IはPaddlePaddleディープラーニングフレームワークで実装されている。
実験により,提案フレームワークは,良好なNLP性能を維持しつつ,トレーニング効率を大幅に向上できることが示された。
- 参考スコア(独自算出の注目度): 39.85470606966918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ever-growing model size and scale of compute have attracted increasing
interests in training deep learning models over multiple nodes. However, when
it comes to training on cloud clusters, especially across remote clusters, huge
challenges are faced. In this work, we introduce a general framework, Nebula-I,
for collaboratively training deep learning models over remote heterogeneous
clusters, the connections between which are low-bandwidth wide area networks
(WANs). We took natural language processing (NLP) as an example to show how
Nebula-I works in different training phases that include: a) pre-training a
multilingual language model using two remote clusters; and b) fine-tuning a
machine translation model using knowledge distilled from pre-trained models,
which run through the most popular paradigm of recent deep learning. To balance
the accuracy and communication efficiency, in Nebula-I, parameter-efficient
training strategies, hybrid parallel computing methods and adaptive
communication acceleration techniques are jointly applied. Meanwhile, security
strategies are employed to guarantee the safety, reliability and privacy in
intra-cluster computation and inter-cluster communication. Nebula-I is
implemented with the PaddlePaddle deep learning framework, which can support
collaborative training over heterogeneous hardware, e.g. GPU and NPU.
Experiments demonstrate that the proposed framework could substantially
maximize the training efficiency while preserving satisfactory NLP performance.
By using Nebula-I, users can run large-scale training tasks over cloud clusters
with minimum developments, and the utility of existed large pre-trained models
could be further promoted. We also introduced new state-of-the-art results on
cross-lingual natural language inference tasks, which are generated based upon
a novel learning framework and Nebula-I.
- Abstract(参考訳): 増大するモデルサイズと計算規模は、複数のノードにわたるディープラーニングモデルのトレーニングに関心を惹きつけている。
しかし、クラウドクラスタ、特にリモートクラスタでのトレーニングに関しては、大きな課題に直面しています。
本稿では,低帯域幅広域ネットワーク(wans)間の接続である遠隔異種クラスタ上でのディープラーニングモデルを協調的にトレーニングするための汎用フレームワークnebula-iを提案する。
自然言語処理(NLP)を例として、Nebula-Iが次のような異なるトレーニングフェーズでどのように動作するかを示しました。
a) 2つの遠隔クラスタを用いた多言語モデルの事前学習
b) 事前訓練されたモデルから抽出した知識を用いて機械翻訳モデルを微調整すること。
精度と通信効率のバランスをとるため、nebula-iではパラメータ効率の良いトレーニング戦略、ハイブリッド並列計算手法、適応的通信加速技術が併用される。
一方、クラスタ内計算とクラスタ間通信の安全性、信頼性、プライバシを保証するためにセキュリティ戦略が採用されている。
Nebula-IはPaddlePaddleディープラーニングフレームワークで実装されており、GPUやNPUといった異種ハードウェア上での協調トレーニングをサポートする。
実験により,提案フレームワークは,良好なNLP性能を維持しつつ,トレーニング効率を大幅に向上できることが示された。
Nebula-Iを使用することで、ユーザは最小限の開発でクラウドクラスタ上で大規模なトレーニングタスクを実行できる。
また,新しい学習フレームワークとnebula-iに基づいて生成された言語間自然言語推論タスクに関する最新の結果も紹介した。
関連論文リスト
- FedBone: Towards Large-Scale Federated Multi-Task Learning [13.835972363413884]
現実世界のアプリケーションでは、視覚と自然言語のタスクは、高レベルの抽象的特徴を抽出するために大規模なモデルを必要とする。
既存のHFML手法は、マルチタスク最適化における勾配競合の影響を無視している。
我々はFedBoneと呼ばれる革新的なフレームワークを提案し、より優れた一般化を伴う大規模モデルの構築を可能にする。
論文 参考訳(メタデータ) (2023-06-30T08:19:38Z) - Personalizing Federated Learning with Over-the-Air Computations [84.8089761800994]
フェデレートされたエッジ学習は、プライバシー保護の方法で無線ネットワークのエッジにインテリジェンスをデプロイする、有望な技術である。
このような設定の下で、複数のクライアントは、エッジサーバの調整の下でグローバルジェネリックモデルを協調的にトレーニングする。
本稿では,アナログオーバー・ザ・エア計算を用いて通信ボトルネックに対処する分散トレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2023-02-24T08:41:19Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - Local Learning with Neuron Groups [15.578925277062657]
局所学習はモデル並列性に対するアプローチであり、標準のエンドツーエンドの学習設定を取り除く。
本研究では,局所学習をレイヤやモジュールをサブコンポーネントに分割する方法について検討する。
論文 参考訳(メタデータ) (2023-01-18T16:25:10Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Supernet Training for Federated Image Classification under System
Heterogeneity [15.2292571922932]
本研究では,2つのシナリオ,すなわちフェデレーション・オブ・スーパーネット・トレーニング(FedSup)を考えるための新しい枠組みを提案する。
フェデレートラーニング(FL)のモデルアグリゲーション段階でのパラメータの平均化は、スーパーネットトレーニングにおけるウェイトシェアリングとどのように似ているかに着想を得ている。
本フレームワークでは,通信コストの削減とトレーニングオーバーヘッドの低減のために,放送段階のクライアントにサブモデルを送信することで,効率的なアルゴリズム(E-FedSup)を提案する。
論文 参考訳(メタデータ) (2022-06-03T02:21:01Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - WenLan: Bridging Vision and Language by Large-Scale Multi-Modal
Pre-Training [71.37731379031487]
クロスモーダルコントラスト学習フレームワークにおいて,BriVLと呼ばれる2重塔前訓練モデルを提案する。
単純なコントラスト学習手法を採用したopenaiクリップとは異なり,最新のメソッドmocoをクロスモーダルシナリオに適用することにより,より高度なアルゴリズムを考案する。
大規模なキューベースの辞書を構築することで、BriVLは限られたGPUリソースにネガティブなサンプルを組み込むことができます。
論文 参考訳(メタデータ) (2021-03-11T09:39:49Z) - Distributed Training of Deep Learning Models: A Taxonomic Perspective [11.924058430461216]
分散ディープラーニングシステム(DDLS)は、クラスタの分散リソースを利用することで、ディープニューラルネットワークモデルをトレーニングする。
私たちは、独立したマシンのクラスタでディープニューラルネットワークをトレーニングする際の、作業の基本原則に光を当てることを目指しています。
論文 参考訳(メタデータ) (2020-07-08T08:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。