Fugu-MT 論文翻訳(概要): DiLoCo: Distributed Low-Communication Training of Language Models

論文の概要: DiLoCo: Distributed Low-Communication Training of Language Models

arxiv url: http://arxiv.org/abs/2311.08105v1
Date: Tue, 14 Nov 2023 12:05:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-15 14:29:20.753073
Title: DiLoCo: Distributed Low-Communication Training of Language Models
Title（参考訳）: DiLoCo: 言語モデルの分散低コミュニケーショントレーニング
Authors: Arthur Douillard, Qixuan Feng, Andrei A. Rusu, Rachita Chhaparia, Yani Donchev, Adhiguna Kuncoro, Marc'Aurelio Ranzato, Arthur Szlam, Jiajun Shen
Abstract要約: 大規模言語モデル(LLM)は、機械学習の多くのアプリケーションにおいて重要なコンポーネントである。 LLMのトレーニングのための標準的なアプローチは、多数の相互接続されたアクセラレータを必要とする。本研究では,低接続のデバイス上での言語モデルのトレーニングを可能にする分散最適化アルゴリズムDiLoCoを提案する。
参考スコア（独自算出の注目度）: 33.35989603836493
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLM) have become a critical component in many applications of machine learning. However, standard approaches to training LLM require a large number of tightly interconnected accelerators, with devices exchanging gradients and other intermediate states at each optimization step. While it is difficult to build and maintain a single computing cluster hosting many accelerators, it might be easier to find several computing clusters each hosting a smaller number of devices. In this work, we propose a distributed optimization algorithm, Distributed Low-Communication (DiLoCo), that enables training of language models on islands of devices that are poorly connected. The approach is a variant of federated averaging, where the number of inner steps is large, the inner optimizer is AdamW, and the outer optimizer is Nesterov momentum. On the widely used C4 dataset, we show that DiLoCo on 8 workers performs as well as fully synchronous optimization while communicating 500 times less. DiLoCo exhibits great robustness to the data distribution of each worker. It is also robust to resources becoming unavailable over time, and vice versa, it can seamlessly leverage resources that become available during training.
Abstract（参考訳）: 大規模言語モデル(LLM)は、機械学習の多くのアプリケーションにおいて重要なコンポーネントとなっている。しかし、LLMのトレーニングに標準的アプローチでは、各最適化ステップで勾配やその他の中間状態を交換するデバイスによって、多数の密接な相互接続のアクセラレータを必要とする。多くのアクセラレーターをホストする単一のコンピューティングクラスタの構築とメンテナンスは難しいが、各デバイスをホストする複数のコンピューティングクラスタを見つけるのは容易かもしれない。本研究では,接続が不十分なデバイス群における言語モデルの学習を可能にする分散最適化アルゴリズムである分散低通信(diloco)を提案する。このアプローチは、内部ステップの数が大きく、内部オプティマイザはAdamW、外側オプティマイザはNesterov運動量であるフェデレート平均化の変種である。広く使われているC4データセットでは、8人のワーカ上でDiLoCoが500倍の通信をしながら完全に同期最適化を行うことを示す。 DiLoCoは、各ワーカーのデータ分散に大きな堅牢性を示す。また、時間とともにリソースが利用できなくなり、その逆もまた、トレーニング中に利用可能なリソースをシームレスに活用することができる。

関連論文リスト

NoLoCo: No-all-reduce Low Communication Training Method for Large Models [0.310688583550805]
大規模言語モデルのトレーニングは、一般的に数万のアクセラレータを含むクラスタ上で最適化手法によって行われる。 NoLoCoは、モデルウェイトをランダムに選択された他のウェイトと部分的に平均化することで、Nesterov運動量の新しい変種を介してモデルウェイトを暗黙的に同期させる。提案手法は, 完全シャードデータ並列訓練や, 広範に使用されている低通信訓練であるDiLoCoよりも通信オーバーヘッドをはるかに少なくする。
論文参考訳（メタデータ） (2025-06-12T17:23:23Z)
Eager Updates For Overlapped Communication and Computation in DiLoCo [15.965441412725808]
DiLoCoのような分散最適化手法は、複数のワーカーにわたる非常に大きなモデルのトレーニングに有効であることが示されている。我々は、ワーカ間の帯域幅が低い設定で標準のDiLoCoと競合するパフォーマンスを提供する、熱狂的な更新と呼ばれる特定の変種を示す。
論文参考訳（メタデータ） (2025-02-18T16:16:14Z)
ACCO: Accumulate while you Communicate, Hiding Communications in Distributed LLM Training [16.560270624096706]
大規模言語モデルの分散学習に適したメモリ効率最適化アルゴリズムを提案する。本手法は、勾配計算と通信の並列実行に固有の1ステップ遅れを軽減する新しい手法に依存する。
論文参考訳（メタデータ） (2024-06-03T08:23:45Z)
DiPaCo: Distributed Path Composition [31.686642863608558]
本稿では,機械学習モデルのためのモジュールアーキテクチャとトレーニングアプローチを提案する。トレーニング中、DiPaCoは共有モジュールのセットを通じてパスで配布する。推論時には、モデル圧縮を必要とせずに、各入力に対して1つのパスだけを実行する必要がある。
論文参考訳（メタデータ） (2024-03-15T18:26:51Z)
LoCoDL: Communication-Efficient Distributed Learning with Local Training and Compression [56.01900711954956]
そこで我々はLoCoDL(LoCoDL)と,フロートの実次元ベクトルの代わりに短いビットストリームが送信される圧縮(Compression)という,ローカルトレーニングの一般的かつ効果的な2つの手法を利用する通信効率の高いアルゴリズムを紹介した。 LoCoDLは、局所的な訓練と圧縮の恩恵を受け、強い凸関数を持つ一般的な異種体制において、関数の条件数とモデル次元に関して、二重に加速された通信複雑性を享受する。
論文参考訳（メタデータ） (2024-03-07T09:22:50Z)
Distributed Inference and Fine-tuning of Large Language Models Over The Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文参考訳（メタデータ） (2023-12-13T18:52:49Z)
CoLLiE: Collaborative Training of Large Language Models in an Efficient Way [59.09824823710863]
CoLLiEは、大規模な言語モデルの協調トレーニングを容易にする効率的なライブラリである。モジュール設計と包括的な機能により、CoLLiEは効率性、使いやすさ、カスタマイズのバランスのとれたブレンドを提供する。
論文参考訳（メタデータ） (2023-12-01T08:02:16Z)
TAMUNA: Doubly Accelerated Distributed Optimization with Local Training, Compression, and Partial Participation [53.84175614198885]
分散最適化と学習では、複数のマシンが並列にローカル計算と遠隔サーバとの通信を交互に行う。ローカルトレーニングと圧縮の2つの戦略を共同で活用し,部分的参加を可能にする分散最適化のための最初のアルゴリズムであるTAMUNAを提案する。
論文参考訳（メタデータ） (2023-02-20T08:37:44Z)
Partitioning Distributed Compute Jobs with Reinforcement Learning and Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文参考訳（メタデータ） (2023-01-31T17:41:07Z)
PiPar: Pipeline Parallelism for Collaborative Machine Learning [16.131285496487678]
協調機械学習(CML)技術は、複数のモバイルデバイスとサーバにまたがるディープラーニングモデルをトレーニングするために提案されている。 CML技術は、デバイスからの生データをサーバと共有するのではなく、各デバイスでトレーニングされたローカルモデルとしてプライバシ保存される。低資源利用の主要因として,シーケンシャルな計算と通信により,サーバやデバイス上でのアイドリングリソースを同定する。
論文参考訳（メタデータ） (2022-12-01T20:51:47Z)
Asynchronous Parallel Incremental Block-Coordinate Descent for Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文参考訳（メタデータ） (2022-02-07T15:04:15Z)
Parallel Successive Learning for Dynamic Distributed Model Training over Heterogeneous Wireless Networks [50.68446003616802]
フェデレートラーニング(Federated Learning, FedL)は、一連の無線デバイスにモデルトレーニングを配布する一般的なテクニックとして登場した。我々は,FedLアーキテクチャを3次元に拡張した並列逐次学習(PSL)を開発した。我々の分析は、分散機械学習におけるコールド対ウォームアップモデルの概念とモデル慣性について光を当てている。
論文参考訳（メタデータ） (2022-02-07T05:11:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。