論文の概要: PatrickStar: Parallel Training of Pre-trained Models via a Chunk-based
Memory Management
- arxiv url: http://arxiv.org/abs/2108.05818v1
- Date: Thu, 12 Aug 2021 15:58:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-13 18:36:28.108538
- Title: PatrickStar: Parallel Training of Pre-trained Models via a Chunk-based
Memory Management
- Title(参考訳): PatrickStar: Chunkベースのメモリ管理による事前学習モデルの並列トレーニング
- Authors: Jiarui Fang, Yang Yu, Shenggui Li, Yang You, Jie Zhou
- Abstract要約: 事前訓練モデル(PTM)は、人工知能(AI)技術に革命をもたらす。
PTMは、膨大なテキスト上に汎用的な特徴を持つモデルを学び、タスク固有のデータセットを使用してモデルを微調整する。
PatrickStarは、異種メモリ空間を使用することで、コンピューティングプラットフォームのメモリ要求を減らす。
- 参考スコア(独自算出の注目度): 19.341284825473558
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The pre-trained model (PTM) is revolutionizing Artificial intelligence (AI)
technology. It learns a model with general language features on the vast text
and then fine-tunes the model using a task-specific dataset. Unfortunately, PTM
training requires prohibitively expensive computing devices, especially
fine-tuning, which is still a game for a small proportion of people in the AI
community. Enabling PTMs training on low-quality devices, PatrickStar now makes
PTM accessible to everyone.
PatrickStar reduces memory requirements of computing platforms by using the
CPU-GPU heterogeneous memory space to store model data, consisting of
parameters, gradients, and optimizer states. We observe that the GPU memory
available for model data changes regularly, in a tide-like pattern, decreasing
and increasing iteratively. However, the existing heterogeneous training works
do not take advantage of this pattern. Instead, they statically partition the
model data among CPU and GPU, leading to both memory waste and memory abuse. In
contrast, PatrickStar manages model data in chunks, which are dynamically
distributed in heterogeneous memory spaces. Chunks consist of stateful tensors
which run as finite state machines during training. Guided by the runtime
memory statistics collected in a warm-up iteration, chunks are orchestrated
efficiently in heterogeneous memory and generate lower CPU-GPU data
transmission volume. Symbiosis with the Zero Redundancy Optimizer, PatrickStar
scales to multiple GPUs using data parallelism, with the lowest communication
bandwidth requirements and more efficient bandwidth utilization. Experimental
results show PatrickStar trains a 12 billion parameters GPT model, 2x larger
than the STOA work, on an 8-V100 and 240GB CPU memory node, and is also more
efficient on the same model size.
- Abstract(参考訳): 事前訓練されたモデル(PTM)は、人工知能(AI)技術に革命をもたらす。
巨大なテキストで一般的な言語機能を持つモデルを学習し、タスク固有のデータセットを使用してモデルを微調整する。
残念なことにptmのトレーニングには、非常に高価なコンピューティングデバイス、特に微調整が必要である。
高品質なデバイス上でのPTMトレーニングを実現するPatrickStarは、PTMを誰でも利用できるようにした。
patrickstarはcpu-gpuヘテロジニアスメモリ空間を使用してパラメータ、勾配、オプティマイザ状態からなるモデルデータを格納することで、コンピューティングプラットフォームのメモリ要件を削減する。
モデルデータに利用可能なGPUメモリは、潮のようなパターンで定期的に変化し、反復的に減少し増大する。
しかし、既存の異種訓練は、このパターンを生かしていない。
その代わり、モデルデータをcpuとgpuに静的に分割し、メモリ浪費とメモリ乱用の両方を引き起こします。
対照的にpatrickstarはモデルデータをチャンクで管理し、異種メモリ空間に動的に分散する。
チャンクは、トレーニング中に有限状態マシンとして実行されるステートフルテンソルで構成される。
ウォームアップイテレーションで収集されたランタイムメモリ統計によってガイドされ、チャンクはヘテロジニアスメモリで効率的にオーケストレーションされ、低CPU-GPUデータ転送ボリュームを生成する。
zero redundancyオプティマイザとの共生により、patrickstarはデータ並列性を使用して複数のgpuにスケールする。
実験の結果、PatrickStarは8-V100と240GBのCPUメモリノード上で、STOAよりも2倍の12億パラメータのGPTモデルを訓練し、同じモデルサイズでより効率的であることがわかった。
関連論文リスト
- Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading [2.8231000588510757]
トランスフォーマーと大規模言語モデル(LLM)は、すべてのドメインで急速に採用されている。
変圧器の訓練は非常に高価で、しばしば記憶壁にぶつかる」
本稿では,LLMをCPUまたはGPU上で更新フェーズをスケジュールしたサブグループに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-10-26T00:43:59Z) - Pipette: Automatic Fine-grained Large Language Model Training Configurator for Real-World Clusters [5.190794062263327]
大規模言語モデル(LLM)の訓練は、膨大な計算能力とメモリ容量の要求のために困難であることが知られている。
本稿では,実世界のクラスタを対象としたLLM自動微粒化トレーニングであるPipetteを提案する。
論文 参考訳(メタデータ) (2024-05-28T11:59:44Z) - AI and Memory Wall [81.06494558184049]
メモリ帯域幅がデコーダモデルの主要なボトルネックとなることを示す。
私たちは、このメモリ制限を克服するためのモデルアーキテクチャ、トレーニング、デプロイメント戦略の再設計を主張します。
論文 参考訳(メタデータ) (2024-03-21T04:31:59Z) - Elixir: Train a Large Language Model on a Small GPU Cluster [6.578131399847817]
大規模な言語モデルは前例のない規模で大きな成功を収めた。
Elixirは、実行前のモデルプロファイリングに基づいて、効率的な大規模モデルのトレーニングを自動化する。
Elixirは現在の最先端のベースラインを大きく上回っている。
論文 参考訳(メタデータ) (2022-12-10T17:26:05Z) - Incremental Online Learning Algorithms Comparison for Gesture and Visual
Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。
以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文 参考訳(メタデータ) (2022-09-01T17:05:20Z) - On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - Communication-Efficient TeraByte-Scale Model Training Framework for
Online Advertising [32.5337643852876]
CTR(Click-Through Rate)予測は、オンライン広告業界において重要な要素である。
大規模な広告モデルのための既存のGPUトレーニングにおける2つの大きな課題を特定します。
ハードウェアトポロジをアルゴリズム設計に結合するハードウェア対応トレーニングワークフローを提案する。
論文 参考訳(メタデータ) (2022-01-05T18:09:11Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - ScaleFreeCTR: MixCache-based Distributed Training System for CTR Models
with Huge Embedding Table [23.264897780201316]
様々なCTR(Deep Click-Through Rate)モデルが工業企業によって商用システムに展開されています。
優れた性能を得るためには、大量のトレーニングデータに基づいて深部CTRモデルを効率的に訓練する必要がある。
ScaleFreeCTR:CTRモデルのためのMixCacheベースの分散トレーニングシステムを提案する。
論文 参考訳(メタデータ) (2021-04-17T13:36:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。