論文の概要: Angel-PTM: A Scalable and Economical Large-scale Pre-training System in
Tencent
- arxiv url: http://arxiv.org/abs/2303.02868v1
- Date: Mon, 6 Mar 2023 03:36:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 17:19:53.638210
- Title: Angel-PTM: A Scalable and Economical Large-scale Pre-training System in
Tencent
- Title(参考訳): Angel-PTM:Tencentのスケーラブルで経済的な大規模事前トレーニングシステム
- Authors: Xiaonan Nie, Yi Liu, Fangcheng Fu, Jinbao Xue, Dian Jiao, Xupeng Miao,
Yangyu Tao, Bin Cui
- Abstract要約: 本稿では,事前学習および微調整型トランスフォーマーモデルのための生産的深層学習システムであるAngel-PTMを提案する。
Angel-PTMは、階層的なメモリで非常に大規模なモデルを効率的に訓練することができる。
実験の結果、Angel-PTMは最大モデルスケールで114.8%まで性能が向上した。
- 参考スコア(独自算出の注目度): 15.810468980559591
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed the unprecedented achievements of large-scale
pre-trained models, especially the Transformer models. Many products and
services in Tencent Inc., such as WeChat, QQ, and Tencent Advertisement, have
been opted in to gain the power of pre-trained models. In this work, we present
Angel-PTM, a productive deep learning system designed for pre-training and
fine-tuning Transformer models. Angel-PTM can train extremely large-scale
models with hierarchical memory efficiently. The key designs of Angel-PTM are
the fine-grained memory management via the Page abstraction and a unified
scheduling method that coordinate the computations, data movements, and
communications. Furthermore, Angel-PTM supports extreme model scaling with SSD
storage and implements the lock-free updating mechanism to address the SSD I/O
bandwidth bottlenecks. Experimental results demonstrate that Angel-PTM
outperforms existing systems by up to 114.8% in terms of maximum model scale as
well as up to 88.9% in terms of training throughput. Additionally, experiments
on GPT3-175B and T5-MoE-1.2T models utilizing hundreds of GPUs verify the
strong scalability of Angel-PTM.
- Abstract(参考訳): 近年では、大規模な事前訓練モデル、特にトランスフォーマーモデルの前例のない成果が見られた。
Tencent Inc.の製品やサービスは、WeChat、QQ、Tencentなど、事前訓練されたモデルのパワーを得るために選択されている。
本稿では,事前学習および微調整型トランスフォーマーモデルのための生産的深層学習システムであるAngel-PTMを提案する。
Angel-PTMは階層メモリで極めて大規模なモデルを効率的に訓練することができる。
angel-ptmの鍵となる設計は、ページ抽象化によるきめ細かいメモリ管理と、計算、データ移動、通信を協調する統一スケジューリング手法である。
さらに、Angel-PTMはSSDストレージによる極端なモデルスケーリングをサポートし、SSD I/O帯域のボトルネックに対処するためのロックフリー更新機構を実装している。
実験の結果、Angel-PTMは最大モデルスケールで最大114.8%、トレーニングスループットで最大88.9%、既存のシステムを最大114.8%上回った。
さらに、数百のGPUを用いたGPT3-175BとT5-MoE-1.2Tモデルによる実験は、Angel-PTMの強力なスケーラビリティを検証する。
関連論文リスト
- Tiny Time Mixers (TTMs): Fast Pre-trained Models for Enhanced Zero/Few-Shot Forecasting of Multivariate Time Series [11.635608108358575]
本稿では,効率的な転送学習機能を備えたコンパクトモデルであるTiny Time Mixers (TTM)について紹介する。
TTMには、適応パッチ、多様な解像度サンプリング、およびさまざまなデータセット解像度の事前トレーニングを処理するための解像度プレフィックスチューニングなどのイノベーションが含まれている。
既存のベンチマークでは0/few-shot予測(4-40%)を上回り、計算要求を大幅に削減した。
論文 参考訳(メタデータ) (2024-01-08T15:21:21Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - The effectiveness of MAE pre-pretraining for billion-scale pretraining [65.98338857597935]
モデルの初期化には自己教師付きMAE技術を用いる。
画像分類, 映像認識, 物体検出, ローショット分類, ゼロショット認識にまたがる10種類の視覚的タスクに対して, 事前学習の有効性を評価する。
論文 参考訳(メタデータ) (2023-03-23T17:56:12Z) - METRO: Efficient Denoising Pretraining of Large Scale Autoencoding
Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。
我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。
結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-04-13T21:39:15Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。
また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。
50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2021-09-22T00:57:46Z) - MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression
of Pre-Trained Transformers [117.67424061746247]
本稿では,大規模トランスフォーマーをベースとした事前学習モデルの簡易かつ効率的な圧縮手法を提案する。
本稿では,教師の最後のトランスフォーマー層の自己保持モジュールを蒸留することを提案する。
実験結果から, 単言語モデルでは, 学生モデルのパラメータサイズの違いにより, 最先端のベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-02-25T15:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。