論文の概要: FlexDeMo: Decoupled Momentum Optimization for Fully and Hybrid Sharded Training
- arxiv url: http://arxiv.org/abs/2502.06728v1
- Date: Mon, 10 Feb 2025 17:55:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:34:23.206804
- Title: FlexDeMo: Decoupled Momentum Optimization for Fully and Hybrid Sharded Training
- Title(参考訳): FlexDeMo: 完全かつハイブリッドなシャードトレーニングのための分離モーメント最適化
- Authors: Mogens Henrik From, Jacob Nielsen, Lukas Galke, Peter Schneider-Kamp,
- Abstract要約: 大規模なニューラルネットワークモデルのトレーニングには、広範な計算リソースが必要である。
最近の知見は、勾配の高速移動成分を交換するだけで十分かもしれないことを示唆している。
本稿では,異なるGPU間でノードが完全に同期するハイブリッド戦略FlexDeMoを提案する。
- 参考スコア(独自算出の注目度): 5.191183730031093
- License:
- Abstract: Training large neural network models requires extensive computational resources, often distributed across several nodes and accelerators. Recent findings suggest that it may be sufficient to only exchange the fast moving components of the gradients, while accumulating momentum locally (Decoupled Momentum, or DeMo). However, when considering larger models that do not fit on a single accelerate, the exchange of gradient information and the integration of DeMo needs to be reconsidered. Here, we propose employing a hybrid strategy, FlexDeMo, whereby nodes fully synchronize locally between different GPUs and inter-node communication is improved through only using the fast-moving components. This effectively combines previous hybrid sharding strategies with the advantages of decoupled momentum. Our experimental results show that FlexDeMo is on par with AdamW in terms of validation loss, demonstrating its viability.
- Abstract(参考訳): 大規模なニューラルネットワークモデルのトレーニングには、大規模な計算リソースが必要で、多くの場合、複数のノードやアクセラレータに分散する。
最近の知見は、局所的な運動量(Decoupled Momentum, DeMo)を蓄積しながら、勾配の高速移動成分を交換するだけで十分であることを示している。
しかし、1つの加速器に収まらないより大きなモデルを考えると、勾配情報の交換とDeMoの統合は再考される必要がある。
本稿では,異なるGPU間でノードが完全に同期し,高速移動コンポーネントのみを用いることでノード間通信が改善されるハイブリッド戦略FlexDeMoを提案する。
これにより、従来のハイブリッドシャーディング戦略とデカップリングモーメントの利点を効果的に組み合わせることができる。
実験の結果、FlexDeMoはAdamWと同等の検証損失を示し、その可能性を示している。
関連論文リスト
- MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。
マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。
WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T07:16:31Z) - Unlocking FedNL: Self-Contained Compute-Optimized Implementation [56.16884466478886]
Federated Learning(FL)は、インテリジェントエージェントが機械学習(ML)モデルを分散的にトレーニングすることを可能にする、新たなパラダイムである。
最近の研究はフェデレートニュートン学習(FedNL)アルゴリズムのファミリを導入し、FLと大規模最適化に二階法を適用するための重要なステップを示している。
本稿では,単一ノードおよび複数ノード設定のためのFedNL,FedNL-LS,FedNL-PPの自己完結実装を提案する。
論文 参考訳(メタデータ) (2024-10-11T12:19:18Z) - MVMoE: Multi-Task Vehicle Routing Solver with Mixture-of-Experts [26.790392171537754]
MRMoE(Mixed-of-experts)を用いたマルチタスク車両ルーティング解法を提案する。
我々はMVMoEの階層的ゲーティング機構を開発し、経験的性能と計算複雑性のトレードオフを良好に提供する。
実験により,本手法は10種類のVRPのゼロショット一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-05-02T06:02:07Z) - LocMoE: A Low-Overhead MoE for Large Language Model Training [13.153904674287546]
本稿では,部分的なノード間通信をノード内通信に変換することで,負荷バランスと局所性を組み合わせた新しいルーティング手法を提案する。
提案されたLocMoEは、古典的なルータと比較して、エポックあたりのトレーニング時間を12.68%削減して22.24%に短縮した。
論文 参考訳(メタデータ) (2024-01-25T03:36:39Z) - Straggler-resilient Federated Learning: Tackling Computation
Heterogeneity with Layer-wise Partial Model Training in Mobile Edge Network [4.1813760301635705]
本稿では,FedPMT(Federated partial Model Training)を提案する。
したがって、FedPMTのすべてのデバイスは、グローバルモデルの最も重要な部分を優先している。
実証的な結果は、FedPMTが既存のベンチマークFedDropを大きく上回っていることを示している。
論文 参考訳(メタデータ) (2023-11-16T16:30:04Z) - Decouple Graph Neural Networks: Train Multiple Simple GNNs Simultaneously Instead of One [60.5818387068983]
グラフニューラルネットワーク(GNN)は、深刻な非効率性に悩まされている。
我々は,より効率的なトレーニングを行うために,多層GNNを複数の単純なモジュールとして分離することを提案する。
提案するフレームワークは,合理的な性能で高い効率性を示す。
論文 参考訳(メタデータ) (2023-04-20T07:21:32Z) - Multi-Carrier NOMA-Empowered Wireless Federated Learning with Optimal
Power and Bandwidth Allocation [31.80744279032665]
無線連合学習(WFL)は、アップリンクにおけるボトルネック通信を行い、各グローバルアグリゲーションラウンドでローカルモデルをアップロードできるユーザ数を制限する。
本稿では,マルチキャリア非直交多重アクセス (MC-NOMA) WFL を提案する。
畳み込みニューラルネットワークと18層住宅ネットワークを併用することにより、提案したMC-NOMA WFLは通信を効率よく削減し、局所モデルトレーニング時間を延長し、既存の代替品と比較して40%以上の収束を加速することができる。
論文 参考訳(メタデータ) (2023-02-13T22:41:14Z) - AutoMoE: Heterogeneous Mixture-of-Experts with Adaptive Computation for
Efficient Neural Machine Translation [104.0979785739202]
ニューラルネットワーク翻訳(NMT)タスクにおいて、Mixture-of-Expert(MoE)モデルが最先端のパフォーマンスを得た。
既存のMoEモデルは、ネットワーク全体に同じサイズの専門家が一様に配置される均質な設計を主に考慮している。
計算制約下での不均一なMoEを設計するためのフレームワークであるAutoMoEを開発した。
論文 参考訳(メタデータ) (2022-10-14T05:32:17Z) - Predictive GAN-powered Multi-Objective Optimization for Hybrid Federated
Split Learning [56.125720497163684]
無線ネットワークにおけるハイブリッド・フェデレーション・スプリット・ラーニング・フレームワークを提案する。
ラベル共有のないモデル分割のための並列計算方式を設計し,提案方式が収束速度に与える影響を理論的に解析する。
論文 参考訳(メタデータ) (2022-09-02T10:29:56Z) - Tutel: Adaptive Mixture-of-Experts at Scale [20.036168971435306]
深層学習モデルを数兆以上のパラメータに拡張するために、計算コストを固定化するために、疎ゲート混合(MoE)が広く採用されている。
我々は、動的適応並列性とパイプライン化を備えたMoEのための高度にスケーラブルなスタック設計と実装であるFlexを紹介します。
我々の評価では、Flexは、最先端のコンピュータビジョンアーキテクチャであるSwin Transformer V2上に構築された実世界のMoEベースのモデルSwinV2-MoEを効率的に効率的に実行している。
論文 参考訳(メタデータ) (2022-06-07T15:20:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。