論文の概要: DiLoCo: Distributed Low-Communication Training of Language Models
- arxiv url: http://arxiv.org/abs/2311.08105v1
- Date: Tue, 14 Nov 2023 12:05:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 14:29:20.753073
- Title: DiLoCo: Distributed Low-Communication Training of Language Models
- Title(参考訳): DiLoCo: 言語モデルの分散低コミュニケーショントレーニング
- Authors: Arthur Douillard, Qixuan Feng, Andrei A. Rusu, Rachita Chhaparia, Yani
Donchev, Adhiguna Kuncoro, Marc'Aurelio Ranzato, Arthur Szlam, Jiajun Shen
- Abstract要約: 大規模言語モデル(LLM)は、機械学習の多くのアプリケーションにおいて重要なコンポーネントである。
LLMのトレーニングのための標準的なアプローチは、多数の相互接続されたアクセラレータを必要とする。
本研究では,低接続のデバイス上での言語モデルのトレーニングを可能にする分散最適化アルゴリズムDiLoCoを提案する。
- 参考スコア(独自算出の注目度): 33.35989603836493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLM) have become a critical component in many
applications of machine learning. However, standard approaches to training LLM
require a large number of tightly interconnected accelerators, with devices
exchanging gradients and other intermediate states at each optimization step.
While it is difficult to build and maintain a single computing cluster hosting
many accelerators, it might be easier to find several computing clusters each
hosting a smaller number of devices. In this work, we propose a distributed
optimization algorithm, Distributed Low-Communication (DiLoCo), that enables
training of language models on islands of devices that are poorly connected.
The approach is a variant of federated averaging, where the number of inner
steps is large, the inner optimizer is AdamW, and the outer optimizer is
Nesterov momentum. On the widely used C4 dataset, we show that DiLoCo on 8
workers performs as well as fully synchronous optimization while communicating
500 times less. DiLoCo exhibits great robustness to the data distribution of
each worker. It is also robust to resources becoming unavailable over time, and
vice versa, it can seamlessly leverage resources that become available during
training.
- Abstract(参考訳): 大規模言語モデル(LLM)は、機械学習の多くのアプリケーションにおいて重要なコンポーネントとなっている。
しかし、LLMのトレーニングに標準的アプローチでは、各最適化ステップで勾配やその他の中間状態を交換するデバイスによって、多数の密接な相互接続のアクセラレータを必要とする。
多くのアクセラレーターをホストする単一のコンピューティングクラスタの構築とメンテナンスは難しいが、各デバイスをホストする複数のコンピューティングクラスタを見つけるのは容易かもしれない。
本研究では,接続が不十分なデバイス群における言語モデルの学習を可能にする分散最適化アルゴリズムである分散低通信(diloco)を提案する。
このアプローチは、内部ステップの数が大きく、内部オプティマイザはAdamW、外側オプティマイザはNesterov運動量であるフェデレート平均化の変種である。
広く使われているC4データセットでは、8人のワーカ上でDiLoCoが500倍の通信をしながら完全に同期最適化を行うことを示す。
DiLoCoは、各ワーカーのデータ分散に大きな堅牢性を示す。
また、時間とともにリソースが利用できなくなり、その逆もまた、トレーニング中に利用可能なリソースをシームレスに活用することができる。
関連論文リスト
- ACCO: Accumulate while you Communicate, Hiding Communications in Distributed LLM Training [16.560270624096706]
大規模言語モデルの分散学習に適したメモリ効率最適化アルゴリズムを提案する。
本手法は、勾配計算と通信の並列実行に固有の1ステップ遅れを軽減する新しい手法に依存する。
論文 参考訳(メタデータ) (2024-06-03T08:23:45Z) - DiPaCo: Distributed Path Composition [31.686642863608558]
本稿では,機械学習モデルのためのモジュールアーキテクチャとトレーニングアプローチを提案する。
トレーニング中、DiPaCoは共有モジュールのセットを通じてパスで配布する。
推論時には、モデル圧縮を必要とせずに、各入力に対して1つのパスだけを実行する必要がある。
論文 参考訳(メタデータ) (2024-03-15T18:26:51Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - CoLLiE: Collaborative Training of Large Language Models in an Efficient
Way [59.09824823710863]
CoLLiEは、大規模な言語モデルの協調トレーニングを容易にする効率的なライブラリである。
モジュール設計と包括的な機能により、CoLLiEは効率性、使いやすさ、カスタマイズのバランスのとれたブレンドを提供する。
論文 参考訳(メタデータ) (2023-12-01T08:02:16Z) - TAMUNA: Doubly Accelerated Distributed Optimization with Local Training, Compression, and Partial Participation [53.84175614198885]
分散最適化と学習では、複数のマシンが並列にローカル計算と遠隔サーバとの通信を交互に行う。
ローカルトレーニングと圧縮の2つの戦略を共同で活用し,部分的参加を可能にする分散最適化のための最初のアルゴリズムであるTAMUNAを提案する。
論文 参考訳(メタデータ) (2023-02-20T08:37:44Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - PiPar: Pipeline Parallelism for Collaborative Machine Learning [16.131285496487678]
協調機械学習(CML)技術は、複数のモバイルデバイスとサーバにまたがるディープラーニングモデルをトレーニングするために提案されている。
CML技術は、デバイスからの生データをサーバと共有するのではなく、各デバイスでトレーニングされたローカルモデルとしてプライバシ保存される。
低資源利用の主要因として,シーケンシャルな計算と通信により,サーバやデバイス上でのアイドリングリソースを同定する。
論文 参考訳(メタデータ) (2022-12-01T20:51:47Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z) - Parallel Successive Learning for Dynamic Distributed Model Training over
Heterogeneous Wireless Networks [50.68446003616802]
フェデレートラーニング(Federated Learning, FedL)は、一連の無線デバイスにモデルトレーニングを配布する一般的なテクニックとして登場した。
我々は,FedLアーキテクチャを3次元に拡張した並列逐次学習(PSL)を開発した。
我々の分析は、分散機械学習におけるコールド対ウォームアップモデルの概念とモデル慣性について光を当てている。
論文 参考訳(メタデータ) (2022-02-07T05:11:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。