論文の概要: Rethinking Memory and Communication Cost for Efficient Large Language
Model Training
- arxiv url: http://arxiv.org/abs/2310.06003v2
- Date: Mon, 30 Oct 2023 08:07:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 22:24:42.059633
- Title: Rethinking Memory and Communication Cost for Efficient Large Language
Model Training
- Title(参考訳): 大規模言語モデル学習のためのメモリコストと通信コストの再考
- Authors: Chan Wu, Hanxiao Zhang, Lin Ju, Jinjing Huang, Youshao Xiao, Zhaoxin
Huan, Siyuan Li, Fanzhuang Meng, Lei Liang, Xiaolu Zhang and Jun Zhou
- Abstract要約: 大規模言語モデルの学習速度に及ぼすメモリ消費と通信コストの影響を再考する。
実験の結果,PAROはSOTA法に比べて1.19x-2.50倍のトレーニングスループットを向上することがわかった。
HO-Ringアルゴリズムは従来のRingアルゴリズムと比較して通信効率を36.5%向上させる。
- 参考スコア(独自算出の注目度): 25.640899145028296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, various distributed strategies for large language model training
have been proposed. However, these methods provided limited solutions for the
trade-off between memory consumption and communication cost. In this paper, we
rethink the impact of memory consumption and communication costs on the
training speed of large language models, and propose a memory-communication
balanced strategy set Partial Redundancy Optimizer (PaRO). PaRO provides
comprehensive options which reduces the amount and frequency of inter-group
communication with minor memory redundancy by fine-grained sharding strategy,
thereby improving the training efficiency in various training scenarios.
Additionally, we propose a Hierarchical Overlapping Ring (HO-Ring)
communication topology to enhance communication efficiency between nodes or
across switches in large language model training. Our experiments demonstrate
that PaRO significantly improves training throughput by 1.19x-2.50x compared to
the SOTA method and achieves a near-linear scalability. The HO-Ring algorithm
improves communication efficiency by 36.5% compared to the traditional Ring
algorithm.
- Abstract(参考訳): 近年,大規模言語モデル学習のための分散戦略が提案されている。
しかし、これらの手法はメモリ消費と通信コストのトレードオフを限定的に解決した。
本稿では,大規模な言語モデルの学習速度に及ぼすメモリ消費と通信コストの影響を再考し,部分冗長最適化器(PaRO)を用いたメモリ通信バランス戦略を提案する。
PaROは、微粒なシャーディング戦略により、小メモリ冗長性によるグループ間通信の量と頻度を削減し、様々なトレーニングシナリオにおけるトレーニング効率を向上させる包括的なオプションを提供する。
さらに,大規模言語モデル学習において,ノード間やスイッチ間の通信効率を高めるために,階層オーバーラップリング(HO-Ring)通信トポロジを提案する。
実験の結果,PaROはSOTA法に比べて1.19x-2.50倍のトレーニングスループットを向上し,ほぼ線形スケーラビリティを実現することがわかった。
hoリングアルゴリズムは従来のリングアルゴリズムと比較して通信効率を36.5%向上させる。
関連論文リスト
- FedsLLM: Federated Split Learning for Large Language Models over Communication Networks [30.47242577997792]
本稿では,低ランク適応技術 (LoRA) と分割学習フレームワークを組み合わせることで,大規模言語モデル (FedsLLM) のためのフェデレーション分割学習を提案する。
提案アルゴリズムは、最適化されていないシナリオと比較して平均47.63%遅延を削減する。
論文 参考訳(メタデータ) (2024-07-12T13:23:54Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Personalizing Federated Learning with Over-the-Air Computations [84.8089761800994]
フェデレートされたエッジ学習は、プライバシー保護の方法で無線ネットワークのエッジにインテリジェンスをデプロイする、有望な技術である。
このような設定の下で、複数のクライアントは、エッジサーバの調整の下でグローバルジェネリックモデルを協調的にトレーニングする。
本稿では,アナログオーバー・ザ・エア計算を用いて通信ボトルネックに対処する分散トレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2023-02-24T08:41:19Z) - Federated Reinforcement Learning at the Edge [1.4271989597349055]
現代のサイバー物理アーキテクチャでは、異なる物理的位置にあるシステムから収集されたデータを使用して適切な振る舞いを学び、不確実な環境に適応する。
本稿では,複数のエージェントが分散的に収集された時系列データに対して,強化学習問題を共同で解決するために,効率的にコミュニケーションを行う必要がある設定について考察する。
通信効率向上のためのアルゴリズムが提案され、理論的保証、実践的実装、数値評価がサポートされている。
論文 参考訳(メタデータ) (2021-12-11T03:28:59Z) - Federated Learning over Wireless IoT Networks with Optimized
Communication and Resources [98.18365881575805]
協調学習技術のパラダイムとしてのフェデレートラーニング(FL)は研究の注目を集めている。
無線システム上での高速応答および高精度FLスキームの検証が重要である。
提案する通信効率のよいフェデレーション学習フレームワークは,強い線形速度で収束することを示す。
論文 参考訳(メタデータ) (2021-10-22T13:25:57Z) - Toward Communication Efficient Adaptive Gradient Method [29.02154169980269]
近年、分散最適化は、ディープニューラルネットワークのような大規模機械学習モデルのトレーニングを加速するための効果的なアプローチであることが証明されている。
モバイルデバイス上で機械学習モデルをトレーニングする上で,フェデレートラーニングと呼ばれる新たな分散トレーニングパラダイムが人気を博している。
本稿では,連合学習における収束とコミュニケーション効率の両立を保証できる適応的勾配法を提案する。
論文 参考訳(メタデータ) (2021-09-10T21:14:36Z) - Adaptive Quantization of Model Updates for Communication-Efficient
Federated Learning [75.45968495410047]
クライアントノードと中央集約サーバ間のモデル更新の通信は、連合学習において大きなボトルネックとなる。
グラディエント量子化(Gradient Quantization)は、各モデル更新間の通信に必要なビット数を削減する効果的な方法である。
通信効率と低エラーフロアを実現することを目的としたAdaFLと呼ばれる適応量子化戦略を提案する。
論文 参考訳(メタデータ) (2021-02-08T19:14:21Z) - CosSGD: Nonlinear Quantization for Communication-efficient Federated
Learning [62.65937719264881]
フェデレーション学習は、これらのクライアントのローカルデータを中央サーバに転送することなく、クライアント間での学習を促進する。
圧縮勾配降下のための非線形量子化を提案し、フェデレーションラーニングで容易に利用することができる。
本システムは,訓練過程の収束と精度を維持しつつ,通信コストを最大3桁まで削減する。
論文 参考訳(メタデータ) (2020-12-15T12:20:28Z) - Distributed Sparse SGD with Majority Voting [5.32836690371986]
分散学習のための分散コミュニケーション戦略として,多数決に基づく疎間コミュニケーション戦略を導入する。
テスト精度を損なうことなく,最大x4000圧縮を達成可能であることを示す。
論文 参考訳(メタデータ) (2020-11-12T17:06:36Z) - Communication-Efficient and Distributed Learning Over Wireless Networks:
Principles and Applications [55.65768284748698]
機械学習(ML)は、第5世代(5G)通信システムなどのための有望なイネーブルである。
本稿では、関連するコミュニケーションとMLの原則を概観し、選択したユースケースでコミュニケーション効率と分散学習フレームワークを提示することを目的とする。
論文 参考訳(メタデータ) (2020-08-06T12:37:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。