論文の概要: HeterMoE: Efficient Training of Mixture-of-Experts Models on Heterogeneous GPUs
- arxiv url: http://arxiv.org/abs/2504.03871v1
- Date: Fri, 04 Apr 2025 18:55:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:09:18.929341
- Title: HeterMoE: Efficient Training of Mixture-of-Experts Models on Heterogeneous GPUs
- Title(参考訳): HeterMoE: ヘテロジニアスGPUを用いたMixture-of-Expertsモデルの効率的なトレーニング
- Authors: Yongji Wu, Xueshen Liu, Shuowei Jin, Ceyu Xu, Feng Qian, Z. Morley Mao, Matthew Lentz, Danyang Zhuo, Ion Stoica,
- Abstract要約: HeterMoEは、異種GPU上でMoEモデルを効率的にトレーニングするシステムである。
HeterMoEは既存のMoEトレーニングシステムと比較して最大2.3倍のスピードアップを実現している。
- 参考スコア(独自算出の注目度): 26.00138507762884
- License:
- Abstract: The Mixture-of-Experts (MoE) architecture has become increasingly popular as a method to scale up large language models (LLMs). To save costs, heterogeneity-aware training solutions have been proposed to utilize GPU clusters made up of both newer and older-generation GPUs. However, existing solutions are agnostic to the performance characteristics of different MoE model components (i.e., attention and expert) and do not fully utilize each GPU's compute capability. In this paper, we introduce HeterMoE, a system to efficiently train MoE models on heterogeneous GPUs. Our key insight is that newer GPUs significantly outperform older generations on attention due to architectural advancements, while older GPUs are still relatively efficient for experts. HeterMoE disaggregates attention and expert computation, where older GPUs are only assigned with expert modules. Through the proposed zebra parallelism, HeterMoE overlaps the computation on different GPUs, in addition to employing an asymmetric expert assignment strategy for fine-grained load balancing to minimize GPU idle time. Our evaluation shows that HeterMoE achieves up to 2.3x speed-up compared to existing MoE training systems, and 1.4x compared to an optimally balanced heterogeneity-aware solution. HeterMoE efficiently utilizes older GPUs by maintaining 95% training throughput on average, even with half of the GPUs in a homogeneous A40 cluster replaced with V100.
- Abstract(参考訳): Mixture-of-Experts (MoE)アーキテクチャは、大規模言語モデル(LLM)をスケールアップする方法として、ますます人気が高まっている。
コスト削減のため、新世代のGPUと旧世代のGPUの両方で構成されたGPUクラスタを利用するために、異質性を考慮したトレーニングソリューションが提案されている。
しかし、既存のソリューションは、異なるMoEモデルコンポーネント(注意と専門家)のパフォーマンス特性に非依存であり、各GPUの計算能力を十分に利用していない。
本稿ではヘテロジニアスGPU上でMoEモデルを効率的に学習するシステムHeterMoEを紹介する。
キーとなる洞察は、新しいGPUは、アーキテクチャの進歩により、古い世代よりも大幅にパフォーマンスが向上し、古いGPUは、まだ専門家にとって比較的効率的であるということです。
HeterMoEは注目と専門家の計算を分離し、古いGPUはエキスパートモジュールにのみ割り当てられる。
提案されたゼブラ並列性を通じて、HeterMoEは異なるGPU上の計算をオーバーラップし、GPUアイドル時間を最小化するために、きめ細かい負荷分散のために非対称な専門家割り当て戦略を採用する。
評価の結果,HeterMoEは既存のMoEトレーニングシステムと比較して最大2.3倍の高速化を実現し,均質性を考慮した最適解に比べて1.4倍の高速化を実現した。
HeterMoEは、V100に置き換えられた同質のA40クラスタ内のGPUの半分であっても、平均95%のトレーニングスループットを維持することで、古いGPUを効率的に活用する。
関連論文リスト
- MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - Forecasting GPU Performance for Deep Learning Training and Inference [10.741682409837612]
NeuSightは、トレーニングと推論の両方のために、実際の実行を必要とせずに、見えないGPU上で、さまざまなディープラーニングモデルのパフォーマンスを予測するフレームワークである。
NeuSightは、単一のディープラーニングカーネル予測をタイルと呼ばれる小さなワーキングセットに分解し、GPU上で独立して実行される。
121.4%と30.8%から2.3%に減少し、H100のトレーニングと推論のGPT3モデルの遅延を予測する。
論文 参考訳(メタデータ) (2024-07-18T18:47:52Z) - Optimized thread-block arrangement in a GPU implementation of a linear solver for atmospheric chemistry mechanisms [0.0]
地球系モデル (ESM) は、大気化学プロセスを解決するために重要なハードウェア資源とエネルギー消費を必要とする。
最近の研究では、GPUアクセラレータ上でこれらのモデルを実行することで、パフォーマンスが改善されている。
本研究は,Block-cellsと呼ばれるGPU上でのケミカルソルバの計算負荷の最適化分布を提案する。
論文 参考訳(メタデータ) (2024-05-27T17:12:59Z) - HETHUB: A Distributed Training System with Heterogeneous Cluster for Large-Scale Models [17.08669201975141]
大規模モデルのトレーニングは、膨大な数のコンピューティングリソースに依存している。
ひとつのタイプのGPUアクセラレータを備えた大規模クラスタを構築するのは、非常に難しい。
本稿では,大規模モデルを対象としたハイブリッド並列処理を用いた分散トレーニングシステムHETHUBを提案する。
論文 参考訳(メタデータ) (2024-05-25T14:36:35Z) - NeRF-XL: Scaling NeRFs with Multiple GPUs [72.75214892939411]
我々は、複数のGPUにまたがるニューラルラジアンス場(NeRF)を分散する原理的手法であるNeRF-XLを提案する。
パラメータ数を大きくして再構成品質を向上し,GPUの高速化を実現した。
我々は,25km2の都市部をカバーする258K画像を含む,これまでで最大規模のオープンソースデータセットMatrixCityを含む,さまざまなデータセットに対するNeRF-XLの有効性を実証した。
論文 参考訳(メタデータ) (2024-04-24T21:43:15Z) - Benchmarking GPUs on SVBRDF Extractor Model [0.0]
本研究では、より大きな入力画像(256x256)で動作するニューラルネットワークモデル上での異なるGPUの性能を区別する。
本研究では、より大きな入力画像(256x256)で動作するニューラルネットワークモデル上での異なるGPUの性能の差別化を試みた。
論文 参考訳(メタデータ) (2023-10-19T17:09:06Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - An Analysis of Collocation on GPUs for Deep Learning Training [0.0]
マルチインスタンスGPU(MIG)はNVIDIAが導入した新しい技術で、GPUをより良いワークロードに分割することができる。
本稿では,MIG対応A100 GPUの各種サイズとモデルの組み合わせを含むディープラーニングワークロードにおける性能について検討する。
論文 参考訳(メタデータ) (2022-09-13T14:13:06Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical
Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。
驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文 参考訳(メタデータ) (2020-04-16T16:20:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。