論文の概要: Towards Crowdsourced Training of Large Neural Networks using
Decentralized Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2002.04013v3
- Date: Wed, 21 Oct 2020 16:36:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 08:27:18.212143
- Title: Towards Crowdsourced Training of Large Neural Networks using
Decentralized Mixture-of-Experts
- Title(参考訳): 分散混合実験による大規模ニューラルネットワークのクラウドソース学習に向けて
- Authors: Max Ryabinin, Anton Gusev
- Abstract要約: Learning@homeは、大量の未接続の参加者を扱うように設計された、新しいニューラルネットワークトレーニングパラダイムである。
我々は,このパラダイムの性能,信頼性,アーキテクチャ上の制約を分析し,既存の分散トレーニング手法と比較する。
- 参考スコア(独自算出の注目度): 10.051309746913512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many recent breakthroughs in deep learning were achieved by training
increasingly larger models on massive datasets. However, training such models
can be prohibitively expensive. For instance, the cluster used to train GPT-3
costs over \$250 million. As a result, most researchers cannot afford to train
state of the art models and contribute to their development. Hypothetically, a
researcher could crowdsource the training of large neural networks with
thousands of regular PCs provided by volunteers. The raw computing power of a
hundred thousand \$2500 desktops dwarfs that of a \$250M server pod, but one
cannot utilize that power efficiently with conventional distributed training
methods. In this work, we propose Learning@home: a novel neural network
training paradigm designed to handle large amounts of poorly connected
participants. We analyze the performance, reliability, and architectural
constraints of this paradigm and compare it against existing distributed
training techniques.
- Abstract(参考訳): ディープラーニングにおける最近の多くのブレークスルーは、大規模データセットでますます大きなモデルをトレーニングすることで達成された。
しかし、そのようなモデルの訓練は極めて高価である。
例えば、gpt-3のトレーニングに使用されたクラスタは、250万ドル以上かかる。
その結果、ほとんどの研究者は、芸術モデルの状態を訓練し、その発展に貢献する余裕がない。
仮説上、研究者はボランティアによって提供される何千もの通常のPCで大規模なニューラルネットワークのトレーニングをクラウドソーシングすることができる。
1億2500ドルのデスクトップの生のコンピューティングパワーは、2億5000万のサーバーポッドのパワーに劣るが、従来の分散トレーニング手法ではそのパワーを効率的に利用できない。
本研究では,未接続の参加者を大量に扱うように設計されたニューラルネットワークトレーニングパラダイムであるLearning@homeを提案する。
我々は,このパラダイムの性能,信頼性,アーキテクチャ上の制約を分析し,既存の分散トレーニング手法と比較する。
関連論文リスト
- Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints [59.39280540478479]
密なチェックポイントから疎活性化されたMixture-of-Expertsモデルを初期化することにより、サンクトレーニングコストを再利用する簡単な方法であるスパースアップサイクリングを提案する。
我々は, 比較的高サイクルなT5 Base, Large, XL言語モデル, Vision Transformer Base と Large モデルが, SuperGLUE と ImageNet の高密度モデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-12-09T18:57:37Z) - Training Spiking Neural Networks with Local Tandem Learning [96.32026780517097]
スパイキングニューラルネットワーク(SNN)は、前者よりも生物学的に可塑性でエネルギー効率が高いことが示されている。
本稿では,局所タンデム学習(Local Tandem Learning, LTL)と呼ばれる一般化学習規則を提案する。
CIFAR-10データセット上の5つのトレーニングエポック内に高速なネットワーク収束を示すとともに,計算複雑性が低い。
論文 参考訳(メタデータ) (2022-10-10T10:05:00Z) - Decentralized Training of Foundation Models in Heterogeneous
Environments [77.47261769795992]
GPT-3 や PaLM のようなトレーニング基盤モデルは、非常に高価である。
ヘテロジニアスネットワーク上での分散型システムにおけるモデル並列化を用いた大規模基盤モデルのトレーニングに関する最初の研究について述べる。
論文 参考訳(メタデータ) (2022-06-02T20:19:51Z) - Superposing Many Tickets into One: A Performance Booster for Sparse
Neural Network Training [32.30355584300427]
本研究では,2つのデシラタを同時に1つのスパース・ツー・スパース・トレーニング・プロセスで満たすことのできる,新しいスパース・トレーニング・アプローチであるtextbfSup-tkets を提案する。
CIFAR-10/100 および ImageNet 上の様々なモダンアーキテクチャにおいて,Sup-tket が既存のスパーストレーニング手法とシームレスに統合されていることを示す。
論文 参考訳(メタデータ) (2022-05-30T16:01:32Z) - $\ell_\infty$-Robustness and Beyond: Unleashing Efficient Adversarial
Training [11.241749205970253]
トレーニングデータの小さなサブセットを選択することで、堅牢なトレーニングの時間的複雑さを軽減するための、より原則的なアプローチが実現されることを示す。
本手法は,クリーンかつロバストな精度をわずかに低下させながら,敵のトレーニングを2~3倍高速化する。
論文 参考訳(メタデータ) (2021-12-01T09:55:01Z) - ProgFed: Effective, Communication, and Computation Efficient Federated Learning by Progressive Training [65.68511423300812]
本稿では,効率的なフェデレート学習のためのプログレッシブトレーニングフレームワークであるProgFedを提案する。
ProgFedは計算と双方向通信のコストを本質的に低減し、最終モデルの強力な性能を維持している。
以上の結果から, ProgFed はフルモデルの標準トレーニングと同等の速度で収束することがわかった。
論文 参考訳(メタデータ) (2021-10-11T14:45:00Z) - Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-06-16T15:57:51Z) - Towards Scalable Distributed Training of Deep Learning on Public Cloud
Clusters [30.4449309904155]
分散トレーニングのための新しいトップkスパシフィケーション通信ライブラリを提案する。
CNNやTransformerの既存の最先端システムよりも25%~40%高速であることを示す。
論文 参考訳(メタデータ) (2020-10-20T17:16:29Z) - Towards Compact Neural Networks via End-to-End Training: A Bayesian
Tensor Approach with Automatic Rank Determination [11.173092834726528]
コンパクトニューラルネットワークをスクラッチから直接、低メモリと低計算コストでトレーニングすることが望ましい。
低ランクテンソル分解は、大規模ニューラルネットワークのメモリと計算要求を減らす最も効果的な手法の1つである。
本稿では,ニューラルネットワークの低ランクテンソル化トレーニングのためのエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-17T01:23:26Z) - Characterizing and Modeling Distributed Training with Transient Cloud
GPU Servers [6.56704851092678]
CM-DAREを用いて,多様なクラスタ構成下での分散トレーニング性能を解析する。
私たちの経験的データセットには、3つのGPUタイプ、6つの地理的領域、20の畳み込みニューラルネットワーク、数千のGoogle Cloudサーバからの計測が含まれています。
また、回帰モデルを用いてトレーニング速度とオーバーヘッドを予測することが可能であることを示す。
論文 参考訳(メタデータ) (2020-04-07T01:49:58Z) - Fast is better than free: Revisiting adversarial training [86.11788847990783]
より弱く安価な敵を用いて、経験的に堅牢なモデルを訓練することが可能であることを示す。
我々は,FGSM逆行訓練を失敗に導く「破滅的オーバーフィッティング(catastrophic overfitting)」と呼ばれる障害モードを特定した。
論文 参考訳(メタデータ) (2020-01-12T20:30:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。