Fugu-MT 論文翻訳(概要): Nebula-I: A General Framework for Collaboratively Training Deep Learning Models on Low-Bandwidth Cloud Clusters

論文の概要: Nebula-I: A General Framework for Collaboratively Training Deep Learning Models on Low-Bandwidth Cloud Clusters

arxiv url: http://arxiv.org/abs/2205.09470v1
Date: Thu, 19 May 2022 11:10:14 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-20 14:18:59.006652
Title: Nebula-I: A General Framework for Collaboratively Training Deep Learning Models on Low-Bandwidth Cloud Clusters
Title（参考訳）: nebula-i:低帯域クラウドクラスタ上でディープラーニングモデルを協調的にトレーニングするための汎用フレームワーク
Authors: Yang Xiang, Zhihua Wu, Weibao Gong, Siyu Ding, Xianjie Mo, Yuang Liu, Shuohuan Wang, Peng Liu, Yongshuai Hou, Long Li, Bin Wang, Shaohuai Shi, Yaqian Han, Yue Yu, Ge Li, Yu Sun, Yanjun Ma, Dianhai Yu
Abstract要約: 遠隔ヘテロジニアスクラスタ上でディープラーニングモデルを協調訓練するための一般的なフレームワークであるNebula-Iを導入する。 Nebula-IはPaddlePaddleディープラーニングフレームワークで実装されている。実験により,提案フレームワークは,良好なNLP性能を維持しつつ,トレーニング効率を大幅に向上できることが示された。
参考スコア（独自算出の注目度）: 39.85470606966918
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The ever-growing model size and scale of compute have attracted increasing interests in training deep learning models over multiple nodes. However, when it comes to training on cloud clusters, especially across remote clusters, huge challenges are faced. In this work, we introduce a general framework, Nebula-I, for collaboratively training deep learning models over remote heterogeneous clusters, the connections between which are low-bandwidth wide area networks (WANs). We took natural language processing (NLP) as an example to show how Nebula-I works in different training phases that include: a) pre-training a multilingual language model using two remote clusters; and b) fine-tuning a machine translation model using knowledge distilled from pre-trained models, which run through the most popular paradigm of recent deep learning. To balance the accuracy and communication efficiency, in Nebula-I, parameter-efficient training strategies, hybrid parallel computing methods and adaptive communication acceleration techniques are jointly applied. Meanwhile, security strategies are employed to guarantee the safety, reliability and privacy in intra-cluster computation and inter-cluster communication. Nebula-I is implemented with the PaddlePaddle deep learning framework, which can support collaborative training over heterogeneous hardware, e.g. GPU and NPU. Experiments demonstrate that the proposed framework could substantially maximize the training efficiency while preserving satisfactory NLP performance. By using Nebula-I, users can run large-scale training tasks over cloud clusters with minimum developments, and the utility of existed large pre-trained models could be further promoted. We also introduced new state-of-the-art results on cross-lingual natural language inference tasks, which are generated based upon a novel learning framework and Nebula-I.
Abstract（参考訳）: 増大するモデルサイズと計算規模は、複数のノードにわたるディープラーニングモデルのトレーニングに関心を惹きつけている。しかし、クラウドクラスタ、特にリモートクラスタでのトレーニングに関しては、大きな課題に直面しています。本稿では,低帯域幅広域ネットワーク(wans)間の接続である遠隔異種クラスタ上でのディープラーニングモデルを協調的にトレーニングするための汎用フレームワークnebula-iを提案する。自然言語処理(NLP)を例として、Nebula-Iが次のような異なるトレーニングフェーズでどのように動作するかを示しました。 a) 2つの遠隔クラスタを用いた多言語モデルの事前学習 b) 事前訓練されたモデルから抽出した知識を用いて機械翻訳モデルを微調整すること。精度と通信効率のバランスをとるため、nebula-iではパラメータ効率の良いトレーニング戦略、ハイブリッド並列計算手法、適応的通信加速技術が併用される。一方、クラスタ内計算とクラスタ間通信の安全性、信頼性、プライバシを保証するためにセキュリティ戦略が採用されている。 Nebula-IはPaddlePaddleディープラーニングフレームワークで実装されており、GPUやNPUといった異種ハードウェア上での協調トレーニングをサポートする。実験により,提案フレームワークは,良好なNLP性能を維持しつつ,トレーニング効率を大幅に向上できることが示された。 Nebula-Iを使用することで、ユーザは最小限の開発でクラウドクラスタ上で大規模なトレーニングタスクを実行できる。また,新しい学習フレームワークとnebula-iに基づいて生成された言語間自然言語推論タスクに関する最新の結果も紹介した。

関連論文リスト

NNTile: a machine learning framework capable of training extremely large GPT language models on a single node [83.9328245724548]
NNTileはタスクベースの並列処理を実装したStarPUライブラリをベースとしている。これは、大きなニューラルネットワークをトレーニングするために必要な特定の操作が、CPUコアまたはGPUデバイスのいずれかで実行されることを意味する。
論文参考訳（メタデータ） (2025-04-17T16:22:32Z)
Research on Key Technologies for Cross-Cloud Federated Training of Large Language Models [7.762524368844918]
クロスクラウドフェデレーショントレーニングは、単一のクラウドプラットフォームのリソースボトルネックに対処するための、新たなアプローチを提供する。本研究では、データパーティショニングと分散、通信最適化、モデル集約アルゴリズム、異種クラウドプラットフォームとの互換性など、クロスクラウドフェデレーショントレーニングの重要技術について分析する。
論文参考訳（メタデータ） (2024-10-24T19:57:17Z)
ATOM: Asynchronous Training of Massive Models for Deep Learning in a Decentralized Environment [7.916080032572087]
Atomは、分散化された環境で巨大なモデルの非同期トレーニング用に設計された、レジリエントな分散トレーニングフレームワークである。 atomは、スワップをシームレスにモデルし、トレーニングスループットを最適化するために複数のコピーを同時にトレーニングすることで、1つのホスト(ピア)に完全なLLMを適合させることを目的としている。異なるGPT-3モデル構成を用いて実験したところ、最適ネットワーク接続のシナリオでは、原子は最先端の分散パイプライン並列化アプローチを組み込んだ場合、トレーニング効率を最大20倍に向上させることができることがわかった。
論文参考訳（メタデータ） (2024-03-15T17:43:43Z)
Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文参考訳（メタデータ） (2024-02-28T08:34:23Z)
SpikeCLIP: A Contrastive Language-Image Pretrained Spiking Neural Network [39.54624592783459]
従来のニューラルネットワーク(ANN)の代替として、スパイキングニューラルネットワーク(SNN)が登場した。本稿ではスパイクベースの計算におけるモダリティギャップを埋める新しいフレームワークであるSpikeCLIPを提案する。
論文参考訳（メタデータ） (2023-10-10T09:57:17Z)
FedBone: Towards Large-Scale Federated Multi-Task Learning [13.835972363413884]
現実世界のアプリケーションでは、視覚と自然言語のタスクは、高レベルの抽象的特徴を抽出するために大規模なモデルを必要とする。既存のHFML手法は、マルチタスク最適化における勾配競合の影響を無視している。我々はFedBoneと呼ばれる革新的なフレームワークを提案し、より優れた一般化を伴う大規模モデルの構築を可能にする。
論文参考訳（メタデータ） (2023-06-30T08:19:38Z)
Personalizing Federated Learning with Over-the-Air Computations [84.8089761800994]
フェデレートされたエッジ学習は、プライバシー保護の方法で無線ネットワークのエッジにインテリジェンスをデプロイする、有望な技術である。このような設定の下で、複数のクライアントは、エッジサーバの調整の下でグローバルジェネリックモデルを協調的にトレーニングする。本稿では,アナログオーバー・ザ・エア計算を用いて通信ボトルネックに対処する分散トレーニングパラダイムを提案する。
論文参考訳（メタデータ） (2023-02-24T08:41:19Z)
SWARM Parallelism: Training Large Models Can Be Surprisingly Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文参考訳（メタデータ） (2023-01-27T18:55:19Z)
Local Learning with Neuron Groups [15.578925277062657]
局所学習はモデル並列性に対するアプローチであり、標準のエンドツーエンドの学習設定を取り除く。本研究では,局所学習をレイヤやモジュールをサブコンポーネントに分割する方法について検討する。
論文参考訳（メタデータ） (2023-01-18T16:25:10Z)
Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文参考訳（メタデータ） (2022-11-19T15:44:08Z)
Learning to Generalize to More: Continuous Semantic Augmentation for Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。 CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文参考訳（メタデータ） (2022-04-14T08:16:28Z)
Distributed Training of Deep Learning Models: A Taxonomic Perspective [11.924058430461216]
分散ディープラーニングシステム(DDLS)は、クラスタの分散リソースを利用することで、ディープニューラルネットワークモデルをトレーニングする。私たちは、独立したマシンのクラスタでディープニューラルネットワークをトレーニングする際の、作業の基本原則に光を当てることを目指しています。
論文参考訳（メタデータ） (2020-07-08T08:56:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。