論文の概要: Rethinking Memory and Communication Cost for Efficient Large Language
Model Training
- arxiv url: http://arxiv.org/abs/2310.06003v1
- Date: Mon, 9 Oct 2023 15:08:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 04:20:24.108376
- Title: Rethinking Memory and Communication Cost for Efficient Large Language
Model Training
- Title(参考訳): 大規模言語モデル学習のためのメモリコストと通信コストの再考
- Authors: Chan Wu, Hanxiao Zhang, Lin Ju, Jinjing Huang, Youshao Xiao, Zhaoxin
Huan, Siyuan Li, Fanzhuang Meng, Lei Liang, Xiaolu Zhang and Jun Zhou
- Abstract要約: そこで我々は,PaRO(PaRO)によるメモリ通信のバランスをとるアンダーラインのアンダーライン冗長性について提案する。
PaROは、GPUクラスタをグループ化し、グループ内の小さなメモリ冗長性を導入することで、グループ間通信の量と頻度を削減する。
実験により,HO-Ringアルゴリズムは従来のRingアルゴリズムと比較して通信効率を32.6%向上することを示した。
- 参考スコア(独自算出の注目度): 25.640899145028296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As model sizes and training datasets continue to increase, large-scale model
training frameworks reduce memory consumption by various sharding techniques.
However, the huge communication overhead reduces the training efficiency,
especially in public cloud environments with varying network bandwidths. In
this paper, we rethink the impact of memory consumption and communication
overhead on the training speed of large language model, and propose a
memory-communication balanced \underline{Pa}rtial \underline{R}edundancy
\underline{O}ptimizer (PaRO). PaRO reduces the amount and frequency of
inter-group communication by grouping GPU clusters and introducing minor
intra-group memory redundancy, thereby improving the training efficiency of the
model. Additionally, we propose a Hierarchical Overlapping Ring (HO-Ring)
communication topology to enhance communication efficiency between nodes or
across switches in large model training. Our experiments demonstrate that the
HO-Ring algorithm improves communication efficiency by 32.6\% compared to the
traditional Ring algorithm. Compared to the baseline ZeRO, PaRO significantly
improves training throughput by 1.2x-2.6x and achieves a near-linear
scalability. Therefore, the PaRO strategy provides more fine-grained options
for the trade-off between memory consumption and communication overhead in
different training scenarios.
- Abstract(参考訳): モデルのサイズとトレーニングデータセットが増加を続けるにつれ、大規模モデルのトレーニングフレームワークは、さまざまなシャーディング技術によるメモリ消費を削減する。
しかし、大きな通信オーバーヘッドは、特にネットワーク帯域幅の異なるパブリッククラウド環境において、トレーニング効率を低下させる。
本稿では,大規模言語モデルの学習速度に対するメモリ消費と通信のオーバーヘッドの影響を再考し,メモリ通信バランスのバランスの取れた\underline{pa}rtial \underline{r}edundancy \underline{o}ptimizer (paro)を提案する。
PaROは、GPUクラスタをグループ化し、小さなグループ内メモリ冗長性を導入することにより、グループ間通信の量と頻度を低減し、モデルのトレーニング効率を向上させる。
さらに,大規模なモデルトレーニングにおいて,ノード間やスイッチ間の通信効率を高めるために,階層オーバーラップリング(HO-Ring)通信トポロジを提案する。
実験により,HO-Ring アルゴリズムは従来の Ring アルゴリズムと比較して通信効率を 32.6 % 向上することを示した。
ベースラインのZeROと比較して、PaROはトレーニングのスループットを1.2x-2.6倍改善し、ほぼ直線的なスケーラビリティを実現している。
したがって、PaRO戦略は、異なるトレーニングシナリオにおけるメモリ消費と通信オーバーヘッドの間のトレードオフをよりきめ細かい選択肢を提供する。
関連論文リスト
- FedsLLM: Federated Split Learning for Large Language Models over Communication Networks [30.47242577997792]
本稿では,低ランク適応技術 (LoRA) と分割学習フレームワークを組み合わせることで,大規模言語モデル (FedsLLM) のためのフェデレーション分割学習を提案する。
提案アルゴリズムは、最適化されていないシナリオと比較して平均47.63%遅延を削減する。
論文 参考訳(メタデータ) (2024-07-12T13:23:54Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Personalizing Federated Learning with Over-the-Air Computations [84.8089761800994]
フェデレートされたエッジ学習は、プライバシー保護の方法で無線ネットワークのエッジにインテリジェンスをデプロイする、有望な技術である。
このような設定の下で、複数のクライアントは、エッジサーバの調整の下でグローバルジェネリックモデルを協調的にトレーニングする。
本稿では,アナログオーバー・ザ・エア計算を用いて通信ボトルネックに対処する分散トレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2023-02-24T08:41:19Z) - Federated Reinforcement Learning at the Edge [1.4271989597349055]
現代のサイバー物理アーキテクチャでは、異なる物理的位置にあるシステムから収集されたデータを使用して適切な振る舞いを学び、不確実な環境に適応する。
本稿では,複数のエージェントが分散的に収集された時系列データに対して,強化学習問題を共同で解決するために,効率的にコミュニケーションを行う必要がある設定について考察する。
通信効率向上のためのアルゴリズムが提案され、理論的保証、実践的実装、数値評価がサポートされている。
論文 参考訳(メタデータ) (2021-12-11T03:28:59Z) - Federated Learning over Wireless IoT Networks with Optimized
Communication and Resources [98.18365881575805]
協調学習技術のパラダイムとしてのフェデレートラーニング(FL)は研究の注目を集めている。
無線システム上での高速応答および高精度FLスキームの検証が重要である。
提案する通信効率のよいフェデレーション学習フレームワークは,強い線形速度で収束することを示す。
論文 参考訳(メタデータ) (2021-10-22T13:25:57Z) - Toward Communication Efficient Adaptive Gradient Method [29.02154169980269]
近年、分散最適化は、ディープニューラルネットワークのような大規模機械学習モデルのトレーニングを加速するための効果的なアプローチであることが証明されている。
モバイルデバイス上で機械学習モデルをトレーニングする上で,フェデレートラーニングと呼ばれる新たな分散トレーニングパラダイムが人気を博している。
本稿では,連合学習における収束とコミュニケーション効率の両立を保証できる適応的勾配法を提案する。
論文 参考訳(メタデータ) (2021-09-10T21:14:36Z) - Adaptive Quantization of Model Updates for Communication-Efficient
Federated Learning [75.45968495410047]
クライアントノードと中央集約サーバ間のモデル更新の通信は、連合学習において大きなボトルネックとなる。
グラディエント量子化(Gradient Quantization)は、各モデル更新間の通信に必要なビット数を削減する効果的な方法である。
通信効率と低エラーフロアを実現することを目的としたAdaFLと呼ばれる適応量子化戦略を提案する。
論文 参考訳(メタデータ) (2021-02-08T19:14:21Z) - CosSGD: Nonlinear Quantization for Communication-efficient Federated
Learning [62.65937719264881]
フェデレーション学習は、これらのクライアントのローカルデータを中央サーバに転送することなく、クライアント間での学習を促進する。
圧縮勾配降下のための非線形量子化を提案し、フェデレーションラーニングで容易に利用することができる。
本システムは,訓練過程の収束と精度を維持しつつ,通信コストを最大3桁まで削減する。
論文 参考訳(メタデータ) (2020-12-15T12:20:28Z) - Distributed Sparse SGD with Majority Voting [5.32836690371986]
分散学習のための分散コミュニケーション戦略として,多数決に基づく疎間コミュニケーション戦略を導入する。
テスト精度を損なうことなく,最大x4000圧縮を達成可能であることを示す。
論文 参考訳(メタデータ) (2020-11-12T17:06:36Z) - Communication-Efficient and Distributed Learning Over Wireless Networks:
Principles and Applications [55.65768284748698]
機械学習(ML)は、第5世代(5G)通信システムなどのための有望なイネーブルである。
本稿では、関連するコミュニケーションとMLの原則を概観し、選択したユースケースでコミュニケーション効率と分散学習フレームワークを提示することを目的とする。
論文 参考訳(メタデータ) (2020-08-06T12:37:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。