論文の概要: PatrickStar: Parallel Training of Pre-trained Models via a Chunk-based
Memory Management
- arxiv url: http://arxiv.org/abs/2108.05818v1
- Date: Thu, 12 Aug 2021 15:58:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-13 18:36:28.108538
- Title: PatrickStar: Parallel Training of Pre-trained Models via a Chunk-based
Memory Management
- Title(参考訳): PatrickStar: Chunkベースのメモリ管理による事前学習モデルの並列トレーニング
- Authors: Jiarui Fang, Yang Yu, Shenggui Li, Yang You, Jie Zhou
- Abstract要約: 事前訓練モデル(PTM)は、人工知能(AI)技術に革命をもたらす。
PTMは、膨大なテキスト上に汎用的な特徴を持つモデルを学び、タスク固有のデータセットを使用してモデルを微調整する。
PatrickStarは、異種メモリ空間を使用することで、コンピューティングプラットフォームのメモリ要求を減らす。
- 参考スコア(独自算出の注目度): 19.341284825473558
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The pre-trained model (PTM) is revolutionizing Artificial intelligence (AI)
technology. It learns a model with general language features on the vast text
and then fine-tunes the model using a task-specific dataset. Unfortunately, PTM
training requires prohibitively expensive computing devices, especially
fine-tuning, which is still a game for a small proportion of people in the AI
community. Enabling PTMs training on low-quality devices, PatrickStar now makes
PTM accessible to everyone.
PatrickStar reduces memory requirements of computing platforms by using the
CPU-GPU heterogeneous memory space to store model data, consisting of
parameters, gradients, and optimizer states. We observe that the GPU memory
available for model data changes regularly, in a tide-like pattern, decreasing
and increasing iteratively. However, the existing heterogeneous training works
do not take advantage of this pattern. Instead, they statically partition the
model data among CPU and GPU, leading to both memory waste and memory abuse. In
contrast, PatrickStar manages model data in chunks, which are dynamically
distributed in heterogeneous memory spaces. Chunks consist of stateful tensors
which run as finite state machines during training. Guided by the runtime
memory statistics collected in a warm-up iteration, chunks are orchestrated
efficiently in heterogeneous memory and generate lower CPU-GPU data
transmission volume. Symbiosis with the Zero Redundancy Optimizer, PatrickStar
scales to multiple GPUs using data parallelism, with the lowest communication
bandwidth requirements and more efficient bandwidth utilization. Experimental
results show PatrickStar trains a 12 billion parameters GPT model, 2x larger
than the STOA work, on an 8-V100 and 240GB CPU memory node, and is also more
efficient on the same model size.
- Abstract(参考訳): 事前訓練されたモデル(PTM)は、人工知能(AI)技術に革命をもたらす。
巨大なテキストで一般的な言語機能を持つモデルを学習し、タスク固有のデータセットを使用してモデルを微調整する。
残念なことにptmのトレーニングには、非常に高価なコンピューティングデバイス、特に微調整が必要である。
高品質なデバイス上でのPTMトレーニングを実現するPatrickStarは、PTMを誰でも利用できるようにした。
patrickstarはcpu-gpuヘテロジニアスメモリ空間を使用してパラメータ、勾配、オプティマイザ状態からなるモデルデータを格納することで、コンピューティングプラットフォームのメモリ要件を削減する。
モデルデータに利用可能なGPUメモリは、潮のようなパターンで定期的に変化し、反復的に減少し増大する。
しかし、既存の異種訓練は、このパターンを生かしていない。
その代わり、モデルデータをcpuとgpuに静的に分割し、メモリ浪費とメモリ乱用の両方を引き起こします。
対照的にpatrickstarはモデルデータをチャンクで管理し、異種メモリ空間に動的に分散する。
チャンクは、トレーニング中に有限状態マシンとして実行されるステートフルテンソルで構成される。
ウォームアップイテレーションで収集されたランタイムメモリ統計によってガイドされ、チャンクはヘテロジニアスメモリで効率的にオーケストレーションされ、低CPU-GPUデータ転送ボリュームを生成する。
zero redundancyオプティマイザとの共生により、patrickstarはデータ並列性を使用して複数のgpuにスケールする。
実験の結果、PatrickStarは8-V100と240GBのCPUメモリノード上で、STOAよりも2倍の12億パラメータのGPTモデルを訓練し、同じモデルサイズでより効率的であることがわかった。
関連論文リスト
- Elixir: Train a Large Language Model on a Small GPU Cluster [6.578131399847817]
大規模な言語モデルは前例のない規模で大きな成功を収めた。
Elixirは、実行前のモデルプロファイリングに基づいて、効率的な大規模モデルのトレーニングを自動化する。
Elixirは現在の最先端のベースラインを大きく上回っている。
論文 参考訳(メタデータ) (2022-12-10T17:26:05Z) - Incremental Online Learning Algorithms Comparison for Gesture and Visual
Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。
以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文 参考訳(メタデータ) (2022-09-01T17:05:20Z) - On-Device Training Under 256KB Memory [65.76525493087847]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは、小さなIoTデバイス上での視覚認識のデバイス上での転送学習のための、最初の実用的なソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - Communication-Efficient TeraByte-Scale Model Training Framework for
Online Advertising [32.5337643852876]
CTR(Click-Through Rate)予測は、オンライン広告業界において重要な要素である。
大規模な広告モデルのための既存のGPUトレーニングにおける2つの大きな課題を特定します。
ハードウェアトポロジをアルゴリズム設計に結合するハードウェア対応トレーニングワークフローを提案する。
論文 参考訳(メタデータ) (2022-01-05T18:09:11Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - ScaleFreeCTR: MixCache-based Distributed Training System for CTR Models
with Huge Embedding Table [23.264897780201316]
様々なCTR(Deep Click-Through Rate)モデルが工業企業によって商用システムに展開されています。
優れた性能を得るためには、大量のトレーニングデータに基づいて深部CTRモデルを効率的に訓練する必要がある。
ScaleFreeCTR:CTRモデルのためのMixCacheベースの分散トレーニングシステムを提案する。
論文 参考訳(メタデータ) (2021-04-17T13:36:19Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。
私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。
これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文 参考訳(メタデータ) (2020-04-19T05:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。