Fugu-MT 論文翻訳(概要): DeMo: Decoupled Momentum Optimization

論文の概要: DeMo: Decoupled Momentum Optimization

arxiv url: http://arxiv.org/abs/2411.19870v1
Date: Fri, 29 Nov 2024 17:31:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 20:28:08.086473
Title: DeMo: Decoupled Momentum Optimization
Title（参考訳）: DeMo: モメンタム最適化の分離
Authors: Bowen Peng, Jeffrey Quesnelle, Diederik P. Kingma,
Abstract要約: 大規模ニューラルネットワークのトレーニングは通常、特別な高速相互接続を通じてアクセラレータ間の共有を必要とする。本稿では,bfDecoupled textbfMomentum (DeMo)を提案する。実験の結果,DeMoでトレーニングしたモデルとAdamWでトレーニングした同等のモデルのパフォーマンスが一致したか,あるいは上回った。
参考スコア（独自算出の注目度）: 6.169574689318864
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Training large neural networks typically requires sharing gradients between accelerators through specialized high-speed interconnects. Drawing from the signal processing principles of frequency decomposition and energy compaction, we demonstrate that synchronizing full optimizer states and model parameters during training is unnecessary. By decoupling momentum updates and allowing controlled divergence in optimizer states across accelerators, we achieve improved convergence compared to state-of-the-art optimizers. We introduce {\textbf{De}}coupled {\textbf{Mo}}mentum (DeMo), a fused optimizer and data parallel algorithm that reduces inter-accelerator communication requirements by several orders of magnitude. This enables training of large neural networks even with limited network bandwidth and heterogeneous hardware. Our method is topology-agnostic and architecture-independent and supports scalable clock-synchronous distributed training with negligible compute and memory overhead. Empirical results show that models trained with DeMo match or exceed the performance of equivalent models trained with AdamW, while eliminating the need for high-speed interconnects when pre-training large scale foundation models. An open source reference PyTorch implementation is published on GitHub at https://github.com/bloc97/DeMo
Abstract（参考訳）: 大規模ニューラルネットワークのトレーニングは通常、特別な高速相互接続を通じてアクセラレータ間の勾配を共有する必要がある。周波数分解とエネルギー圧縮の信号処理原理から、トレーニング中に全最適化状態とモデルパラメータを同期させることは不要であることを示す。運動量更新を分離し、アクセラレーター間でのオプティマイザ状態の制御分岐を可能にすることにより、最先端オプティマイザと比較してコンバージェンスが改善される。本稿では,加速器間通信要求を桁違いに低減する,融合最適化とデータ並列アルゴリズムである {\textbf{De}} Coupled {\textbf{Mo}}mentum (DeMo)を紹介する。これにより、限られたネットワーク帯域幅と異種ハードウェアであっても、大規模なニューラルネットワークのトレーニングが可能になる。提案手法はトポロジ非依存かつアーキテクチャ非依存であり,拡張性のあるクロック同期分散トレーニングをサポートし,計算とメモリのオーバーヘッドを無視できる。実験結果から,DeMoでトレーニングしたモデルは,AdamWでトレーニングした同等のモデルと一致し,かつ,大規模基礎モデルの事前学習時の高速相互接続の必要性を排除した。オープンソースのリファレンスPyTorch実装がGitHubでhttps://github.com/bloc97/DeMoで公開されている。

関連論文リスト

TNT: Improving Chunkwise Training for Test-Time Memorization [62.78875147721906]
タイタンスやTTTのような深いテストタイム記憶モジュールを持つリカレントニューラルネットワーク(RNN)は、トランスフォーマーとは異なる有望で線形にスケールするパラダイムである。 TNTは,2段階のプロセスを通じて,推論性能からトレーニング効率を分離する,新たなトレーニングパラダイムである。 TNTはトレーニング速度を最も正確なベースライン構成の17倍に高速化する。
論文参考訳（メタデータ） (2025-11-10T17:45:09Z)
Distributed Low-Communication Training with Decoupled Momentum Optimization [38.33322656231618]
大規模モデルのトレーニングには相当な計算資源が必要であり、通常は高帯域の相互接続を持つデータセンターでのみ利用可能である。本稿では,分散モデルレプリカ間の頻繁な同期と運動量勾配圧縮を組み合わせることで,コミュニケーションをさらに削減する手法を提案する。特に、モーメントを信号として扱い、離散コサイン変換によりネステロフモーメントを高周波成分と低周波成分に分解する。
論文参考訳（メタデータ） (2025-10-03T08:25:21Z)
CollaPipe: Adaptive Segment-Optimized Pipeline Parallelism for Collaborative LLM Training in Heterogeneous Edge Networks [57.95170323315603]
CollaPipeは、コラボレーティブパイプライン並列性とフェデレーションアグリゲーションを統合し、自己進化型ネットワークをサポートする分散学習フレームワークである。 CollaPipeでは、エンコーダ部分は可変サイズのセグメントに適応的に分割され、パイプライン並列トレーニングのためにモバイルデバイスにデプロイされ、デコーダは生成タスクを処理するためにエッジサーバにデプロイされる。トレーニング効率を向上させるために,モデルセグメント,マイクロバッチ,帯域幅,送信電力を適応的に割り当てる共同最適化問題を定式化する。
論文参考訳（メタデータ） (2025-09-24T07:54:01Z)
NoLoCo: No-all-reduce Low Communication Training Method for Large Models [0.310688583550805]
大規模言語モデルのトレーニングは、一般的に数万のアクセラレータを含むクラスタ上で最適化手法によって行われる。 NoLoCoは、モデルウェイトをランダムに選択された他のウェイトと部分的に平均化することで、Nesterov運動量の新しい変種を介してモデルウェイトを暗黙的に同期させる。提案手法は, 完全シャードデータ並列訓練や, 広範に使用されている低通信訓練であるDiLoCoよりも通信オーバーヘッドをはるかに少なくする。
論文参考訳（メタデータ） (2025-06-12T17:23:23Z)
FlexDeMo: Decoupled Momentum Optimization for Hybrid Sharded Data Parallel Training [5.191183730031093]
大規模なニューラルネットワークモデルのトレーニングには、大規模な計算リソースが必要で、多くの場合、複数のノードやアクセラレータに分散する。最近の知見は、局所的に運動量を蓄積しながら勾配の高速移動成分を交換するだけで十分かもしれないことを示唆している(Decoupled Momentum)。本稿では,ハイブリッドシャードデータ並列トレーニング戦略であるFlexDeMoを用いて,各アクセラレータ間の完全シャードモデルパラメータを局所的に分割する手法を提案する。
論文参考訳（メタデータ） (2025-02-10T17:55:59Z)
Shortcut-connected Expert Parallelism for Accelerating Mixture-of-Experts [4.629608387540524]
ScMoEは、重複する並列化戦略と統合された新しいショートカット接続型MoEアーキテクチャである。一般的なトップ2のMoEベースラインと比較して、ScMoEはトレーニングで1.49倍、推論で1.82倍のスピードアップを達成する。
論文参考訳（メタデータ） (2024-04-07T17:17:23Z)
Efficient Asynchronous Federated Learning with Sparsification and Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。 FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。 TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文参考訳（メタデータ） (2023-12-23T07:47:07Z)
Decouple Graph Neural Networks: Train Multiple Simple GNNs Simultaneously Instead of One [60.5818387068983]
グラフニューラルネットワーク(GNN)は、深刻な非効率性に悩まされている。我々は,より効率的なトレーニングを行うために,多層GNNを複数の単純なモジュールとして分離することを提案する。提案するフレームワークは,合理的な性能で高い効率性を示す。
論文参考訳（メタデータ） (2023-04-20T07:21:32Z)
Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文参考訳（メタデータ） (2022-11-19T15:44:08Z)
Resource-Efficient and Delay-Aware Federated Learning Design under Edge Heterogeneity [10.702853653891902]
フェデレーテッド・ラーニング(FL)は、ワイヤレスエッジデバイスに機械学習を分散するための一般的な方法論として登場した。本研究では,FLにおけるモデル性能と資源利用のトレードオフを最適化することを検討する。提案したStoFedDelAvは、FL計算ステップに局所言語モデルコンバインダーを組み込む。
論文参考訳（メタデータ） (2021-12-27T22:30:15Z)
Decoupled Greedy Learning of CNNs for Synchronous and Asynchronous Distributed Learning [3.7722254371820987]
Decoupled Greedy Learning (DGL)と呼ばれる,最小限のフィードバックに基づくシンプルな代替案を検討する。近年,大規模な画像分類において,畳み込みニューラルネットワーク(CNN)の文脈で有効であることが示されている。我々は、この手法が収束し、シーケンシャル・ソルバと比較されることを理論的、実証的に示す。
論文参考訳（メタデータ） (2021-06-11T13:55:17Z)
Procrustes: a Dataflow and Accelerator for Sparse Deep Neural Network Training [0.5219568203653523]
我々は,まず,第1の訓練を行わず,第2の訓練を行ない,第2の訓練を行ない,第1の訓練を行ない,第1の訓練を行ない,第1の訓練を行ない,第2の訓練を行ないながら,第1の訓練を行ない,第1の訓練を行ない,第2の訓練を行ないながら、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行なう。最先端のDNNアクセラレーターをスパーストレーニングサポートなしで使用した同等の未使用モデルのトレーニングと比較すると、Procrustesは最大3.26$times$少ないエネルギーを消費し、様々なモデルにわたって最大4$times$のスピードアップを提供する。
論文参考訳（メタデータ） (2020-09-23T07:39:55Z)
Scaling Distributed Deep Learning Workloads beyond the Memory Capacity with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文参考訳（メタデータ） (2020-08-26T07:24:34Z)
Fast-Convergent Federated Learning [82.32029953209542]
フェデレーション学習は、モバイルデバイスの現代的なネットワークを介して機械学習タスクを分散するための、有望なソリューションである。本稿では,FOLBと呼ばれる高速収束型フェデレーション学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-07-26T14:37:51Z)
Scheduling Policy and Power Allocation for Federated Learning in NOMA Based MEC [21.267954799102874]
Federated Learning(FL)は、データ分散を維持しながらモデルを集中的にトレーニングできる、高度に追求された機械学習技術である。重み付き和データレートを最大化するために、非直交多重アクセス(NOMA)設定を用いた新しいスケジューリングポリシーと電力割当方式を提案する。シミュレーションの結果,提案手法は,NOMAベースの無線ネットワークにおいて高いFLテスト精度を実現するのに有効であることがわかった。
論文参考訳（メタデータ） (2020-06-21T23:07:41Z)
Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文参考訳（メタデータ） (2019-10-12T22:07:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。