論文の概要: Scalable Pretraining of Large Mixture of Experts Language Models on Aurora Super Computer
- arxiv url: http://arxiv.org/abs/2604.00785v1
- Date: Wed, 01 Apr 2026 11:46:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.962991
- Title: Scalable Pretraining of Large Mixture of Experts Language Models on Aurora Super Computer
- Title(参考訳): オーロラスーパーコンピュータにおけるエキスパート言語モデルの大規模混合のスケーラブル事前学習
- Authors: Dharma Teja Vooturi, Dhiraj Kalamkar, Dipankar Das, Bharat Kaul,
- Abstract要約: 我々は、Aurora上で1000のGPUタイルのスケールで事前トレーニングを行うLarge Language Models (LLMs)を紹介した。
10億の高密度モデルであるMula-1Bと、3072のGPUタイル上でスクラッチから70億のMula-7B-A1Bを事前訓練した。
次に,Mula-20B-A2B,Mula-100B-A7B,Mula-220B-A10Bの3つの大規模MoEモデルを同一データセット上で100億トークンまで事前学習することで,モデルスケーリングを実証した。
- 参考スコア(独自算出の注目度): 0.8959668207214765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretraining Large Language Models (LLMs) from scratch requires massive amount of compute. Aurora super computer is an ExaScale machine with 127,488 Intel PVC (Ponte Vechio) GPU tiles. In this work, we showcase LLM pretraining on Aurora at the scale of 1000s of GPU tiles. Towards this effort, we developed Optimus, an inhouse training library with support for standard large model training techniques. Using Optimus, we first pretrained Mula-1B, a 1 Billion dense model and Mula-7B-A1B, a 7 Billion Mixture of Experts (MoE) model from scratch on 3072 GPU tiles for the full 4 trillion tokens of the OLMoE-mix-0924 dataset. We then demonstrated model scaling by pretraining three large MoE models Mula-20B-A2B, Mula-100B-A7B, and Mula-220B-A10B till 100 Billion tokens on the same dataset. On our largest model Mula-220B-A10B, we pushed the compute scaling from 384 to 12288 GPU tiles and observed scaling efficiency of around 90% at 12288 GPU tiles. We significantly improved the runtime performance of MoE models using custom GPU kernels for expert computation, and a novel EP-Aware sharded optimizer resulting in training speedups up to 1.71x. As part of the Optimus library, we also developed a robust set of reliability and fault tolerant features to improve training stability and continuity at scale.
- Abstract(参考訳): 大規模言語モデル(LLM)をゼロからトレーニングするには、膨大な計算量が必要となる。
オーロラ・スーパーコンピュータ(Aurora super computer)は、127,488個のIntel PVC(Ponte Vechio)GPUタイルを備えたExaScaleマシンである。
本稿では,Aurora 上での LLM 事前トレーニングを,1000 個のGPUタイルのスケールで紹介する。
そこで我々は,標準の大規模モデルトレーニング技術をサポートする社内トレーニングライブラリOptimusを開発した。
Optimusを使って、まず10億の高密度モデルであるMula-1Bと、7億のMula-7B-A1Bをスクラッチから、OLMoE-mix-0924データセットの全4兆個のトークンに対して3072のGPUタイル上でトレーニングしました。
次に,Mula-20B-A2B,Mula-100B-A7B,Mula-220B-A10Bの3つの大規模MoEモデルを同一データセット上で100億トークンまで事前学習することで,モデルスケーリングを実証した。
当社の最大のモデルであるMula-220B-A10Bでは、計算スケーリングを384から12288のGPUタイルにプッシュし、12288のGPUタイルで約90%のスケーリング効率を観測しました。
我々は、エキスパート計算のためのカスタムGPUカーネルを用いたMoEモデルのランタイム性能を大幅に改善し、EP-Awareシャーディングオプティマイザを新たに導入し、トレーニング速度を最大1.71倍に向上させた。
また,Optimusライブラリの一部として,トレーニングの安定性と大規模継続性を改善するために,信頼性と耐障害性を備えた堅牢なセットを開発した。
関連論文リスト
- Training Foundation Models on a Full-Stack AMD Platform: Compute, Networking, and System Design [26.12152103450326]
本報告では,AMDハードウェアの大規模混合実験(MoE)事前学習について報告する。
システムとモデル設計の両方の実用的なガイダンスを精査する。
ZAYA1ベースの性能は、Qwen3-4BやGemma3-12Bのような主要なベースモデルに匹敵する。
論文 参考訳(メタデータ) (2025-11-21T10:44:02Z) - Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs [111.69640966866059]
ミキチャー・オブ・エキスパート(MoE)と1兆近いパラメータを持つ疎大言語モデル(LLM)が、最も有能な言語モデルの領域を支配している。
本稿では,Ascend NPU上でそのようなスケールを利用するレシピを明らかにすることを目的としている。
主な目的は、動的スパースモデル構造下でのコンピューティングリソースのより良い使用と、実際のハードウェアで期待されるパフォーマンス向上の実現である。
論文 参考訳(メタデータ) (2025-05-07T15:46:36Z) - Democratizing AI: Open-source Scalable LLM Training on GPU-based Supercomputers [65.35142508909892]
AxoNNと呼ばれる,スケーラブルでポータブルなオープンソースフレームワークで実装された新しい4次元ハイブリッド並列アルゴリズムを提案する。
本稿では,Frontier 上で AxoNN を用いて405ビリオンパラメータ LLM の微調整を行う。
論文 参考訳(メタデータ) (2025-02-12T06:05:52Z) - 2 OLMo 2 Furious [154.15728448754854]
我々は、私たちの完全にオープンな言語の次世代モデルであるOLMo 2を紹介します。
OLMo 2は、7B、13B、32Bスケールの高密度な自己回帰言語モデルを含む。
修正されたモデルアーキテクチャとトレーニングレシピについて説明する。
論文 参考訳(メタデータ) (2024-12-31T21:55:10Z) - Scalable MatMul-free Language Modeling [9.048532540945086]
MatMul操作は、大きな言語モデルから除外できる。
最大2.7BパラメータのモデルでテストされるMatMulフリーモデルは、最先端のトレーニング済みトランスフォーマーに匹敵する。
論文 参考訳(メタデータ) (2024-06-04T17:50:34Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - GLM-130B: An Open Bilingual Pre-trained Model [56.694470924635624]
我々は,130億のパラメータを持つバイリンガル(英語と中国語)事前学習言語モデルであるGLM-130Bを紹介する。
100Bスケールのモデルを少なくとも GPT-3 (davinci) と同程度にオープンソース化し、そのようなスケールのモデルがどのように事前訓練されるかを明らかにする試みである。
論文 参考訳(メタデータ) (2022-10-05T17:34:44Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - Efficient Large-Scale Language Model Training on GPU Clusters [19.00915720435389]
大規模な言語モデルは、様々なタスクに最先端の精度をもたらす。
メモリ容量は限られており、大きなモデルを単一のGPUに収めることは不可能である。
これらのモデルのトレーニングに必要な計算操作の数は、非現実的な長いトレーニング時間をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-04-09T16:43:11Z) - ZeRO-Offload: Democratizing Billion-Scale Model Training [16.43347399073034]
ZeRO-Offloadは、データと計算をCPUにオフロードすることで、大規模なモデルトレーニングを可能にする。
単一のGPU上で13億以上のパラメータを持つモデルをトレーニングでき、PyTorchのような一般的なフレームワークと比較して10倍のサイズになる。
論文 参考訳(メタデータ) (2021-01-18T02:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。