論文の概要: DeMo: Decoupled Momentum Optimization
- arxiv url: http://arxiv.org/abs/2411.19870v1
- Date: Fri, 29 Nov 2024 17:31:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:22:01.363456
- Title: DeMo: Decoupled Momentum Optimization
- Title(参考訳): DeMo: モメンタム最適化の分離
- Authors: Bowen Peng, Jeffrey Quesnelle, Diederik P. Kingma,
- Abstract要約: 大規模ニューラルネットワークのトレーニングは通常、特別な高速相互接続を通じてアクセラレータ間の共有を必要とする。
本稿では,bfDecoupled textbfMomentum (DeMo)を提案する。
実験の結果,DeMoでトレーニングしたモデルとAdamWでトレーニングした同等のモデルのパフォーマンスが一致したか,あるいは上回った。
- 参考スコア(独自算出の注目度): 6.169574689318864
- License:
- Abstract: Training large neural networks typically requires sharing gradients between accelerators through specialized high-speed interconnects. Drawing from the signal processing principles of frequency decomposition and energy compaction, we demonstrate that synchronizing full optimizer states and model parameters during training is unnecessary. By decoupling momentum updates and allowing controlled divergence in optimizer states across accelerators, we achieve improved convergence compared to state-of-the-art optimizers. We introduce {\textbf{De}}coupled {\textbf{Mo}}mentum (DeMo), a fused optimizer and data parallel algorithm that reduces inter-accelerator communication requirements by several orders of magnitude. This enables training of large neural networks even with limited network bandwidth and heterogeneous hardware. Our method is topology-agnostic and architecture-independent and supports scalable clock-synchronous distributed training with negligible compute and memory overhead. Empirical results show that models trained with DeMo match or exceed the performance of equivalent models trained with AdamW, while eliminating the need for high-speed interconnects when pre-training large scale foundation models. An open source reference PyTorch implementation is published on GitHub at https://github.com/bloc97/DeMo
- Abstract(参考訳): 大規模ニューラルネットワークのトレーニングは通常、特別な高速相互接続を通じてアクセラレータ間の勾配を共有する必要がある。
周波数分解とエネルギー圧縮の信号処理原理から、トレーニング中に全最適化状態とモデルパラメータを同期させることは不要であることを示す。
運動量更新を分離し、アクセラレーター間でのオプティマイザ状態の制御分岐を可能にすることにより、最先端オプティマイザと比較してコンバージェンスが改善される。
本稿では,加速器間通信要求を桁違いに低減する,融合最適化とデータ並列アルゴリズムである {\textbf{De}} Coupled {\textbf{Mo}}mentum (DeMo)を紹介する。
これにより、限られたネットワーク帯域幅と異種ハードウェアであっても、大規模なニューラルネットワークのトレーニングが可能になる。
提案手法はトポロジ非依存かつアーキテクチャ非依存であり,拡張性のあるクロック同期分散トレーニングをサポートし,計算とメモリのオーバーヘッドを無視できる。
実験結果から,DeMoでトレーニングしたモデルは,AdamWでトレーニングした同等のモデルと一致し,かつ,大規模基礎モデルの事前学習時の高速相互接続の必要性を排除した。
オープンソースのリファレンスPyTorch実装がGitHubでhttps://github.com/bloc97/DeMoで公開されている。
関連論文リスト
- Efficient Asynchronous Federated Learning with Sparsification and
Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。
FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。
TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文 参考訳(メタデータ) (2023-12-23T07:47:07Z) - Decouple Graph Neural Networks: Train Multiple Simple GNNs Simultaneously Instead of One [60.5818387068983]
グラフニューラルネットワーク(GNN)は、深刻な非効率性に悩まされている。
我々は,より効率的なトレーニングを行うために,多層GNNを複数の単純なモジュールとして分離することを提案する。
提案するフレームワークは,合理的な性能で高い効率性を示す。
論文 参考訳(メタデータ) (2023-04-20T07:21:32Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Resource-Efficient and Delay-Aware Federated Learning Design under Edge
Heterogeneity [10.702853653891902]
フェデレーテッド・ラーニング(FL)は、ワイヤレスエッジデバイスに機械学習を分散するための一般的な方法論として登場した。
本研究では,FLにおけるモデル性能と資源利用のトレードオフを最適化することを検討する。
提案したStoFedDelAvは、FL計算ステップに局所言語モデルコンバインダーを組み込む。
論文 参考訳(メタデータ) (2021-12-27T22:30:15Z) - Decoupled Greedy Learning of CNNs for Synchronous and Asynchronous
Distributed Learning [3.7722254371820987]
Decoupled Greedy Learning (DGL)と呼ばれる,最小限のフィードバックに基づくシンプルな代替案を検討する。
近年,大規模な画像分類において,畳み込みニューラルネットワーク(CNN)の文脈で有効であることが示されている。
我々は、この手法が収束し、シーケンシャル・ソルバと比較されることを理論的、実証的に示す。
論文 参考訳(メタデータ) (2021-06-11T13:55:17Z) - Procrustes: a Dataflow and Accelerator for Sparse Deep Neural Network
Training [0.5219568203653523]
我々は,まず,第1の訓練を行わず,第2の訓練を行ない,第2の訓練を行ない,第1の訓練を行ない,第1の訓練を行ない,第1の訓練を行ない,第2の訓練を行ないながら,第1の訓練を行ない,第1の訓練を行ない,第2の訓練を行ないながら、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行なう。
最先端のDNNアクセラレーターをスパーストレーニングサポートなしで使用した同等の未使用モデルのトレーニングと比較すると、Procrustesは最大3.26$times$少ないエネルギーを消費し、様々なモデルにわたって最大4$times$のスピードアップを提供する。
論文 参考訳(メタデータ) (2020-09-23T07:39:55Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z) - Fast-Convergent Federated Learning [82.32029953209542]
フェデレーション学習は、モバイルデバイスの現代的なネットワークを介して機械学習タスクを分散するための、有望なソリューションである。
本稿では,FOLBと呼ばれる高速収束型フェデレーション学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-26T14:37:51Z) - Scheduling Policy and Power Allocation for Federated Learning in NOMA
Based MEC [21.267954799102874]
Federated Learning(FL)は、データ分散を維持しながらモデルを集中的にトレーニングできる、高度に追求された機械学習技術である。
重み付き和データレートを最大化するために、非直交多重アクセス(NOMA)設定を用いた新しいスケジューリングポリシーと電力割当方式を提案する。
シミュレーションの結果,提案手法は,NOMAベースの無線ネットワークにおいて高いFLテスト精度を実現するのに有効であることがわかった。
論文 参考訳(メタデータ) (2020-06-21T23:07:41Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。