Fugu-MT 論文翻訳(概要): PatrickStar: Parallel Training of Pre-trained Models via a Chunk-based Memory Management

論文の概要: PatrickStar: Parallel Training of Pre-trained Models via a Chunk-based Memory Management

arxiv url: http://arxiv.org/abs/2108.05818v1
Date: Thu, 12 Aug 2021 15:58:12 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-13 18:36:28.108538
Title: PatrickStar: Parallel Training of Pre-trained Models via a Chunk-based Memory Management
Title（参考訳）: PatrickStar: Chunkベースのメモリ管理による事前学習モデルの並列トレーニング
Authors: Jiarui Fang, Yang Yu, Shenggui Li, Yang You, Jie Zhou
Abstract要約: 事前訓練モデル(PTM)は、人工知能(AI)技術に革命をもたらす。 PTMは、膨大なテキスト上に汎用的な特徴を持つモデルを学び、タスク固有のデータセットを使用してモデルを微調整する。 PatrickStarは、異種メモリ空間を使用することで、コンピューティングプラットフォームのメモリ要求を減らす。
参考スコア（独自算出の注目度）: 19.341284825473558
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The pre-trained model (PTM) is revolutionizing Artificial intelligence (AI) technology. It learns a model with general language features on the vast text and then fine-tunes the model using a task-specific dataset. Unfortunately, PTM training requires prohibitively expensive computing devices, especially fine-tuning, which is still a game for a small proportion of people in the AI community. Enabling PTMs training on low-quality devices, PatrickStar now makes PTM accessible to everyone. PatrickStar reduces memory requirements of computing platforms by using the CPU-GPU heterogeneous memory space to store model data, consisting of parameters, gradients, and optimizer states. We observe that the GPU memory available for model data changes regularly, in a tide-like pattern, decreasing and increasing iteratively. However, the existing heterogeneous training works do not take advantage of this pattern. Instead, they statically partition the model data among CPU and GPU, leading to both memory waste and memory abuse. In contrast, PatrickStar manages model data in chunks, which are dynamically distributed in heterogeneous memory spaces. Chunks consist of stateful tensors which run as finite state machines during training. Guided by the runtime memory statistics collected in a warm-up iteration, chunks are orchestrated efficiently in heterogeneous memory and generate lower CPU-GPU data transmission volume. Symbiosis with the Zero Redundancy Optimizer, PatrickStar scales to multiple GPUs using data parallelism, with the lowest communication bandwidth requirements and more efficient bandwidth utilization. Experimental results show PatrickStar trains a 12 billion parameters GPT model, 2x larger than the STOA work, on an 8-V100 and 240GB CPU memory node, and is also more efficient on the same model size.
Abstract（参考訳）: 事前訓練されたモデル(PTM)は、人工知能(AI)技術に革命をもたらす。巨大なテキストで一般的な言語機能を持つモデルを学習し、タスク固有のデータセットを使用してモデルを微調整する。残念なことにptmのトレーニングには、非常に高価なコンピューティングデバイス、特に微調整が必要である。高品質なデバイス上でのPTMトレーニングを実現するPatrickStarは、PTMを誰でも利用できるようにした。 patrickstarはcpu-gpuヘテロジニアスメモリ空間を使用してパラメータ、勾配、オプティマイザ状態からなるモデルデータを格納することで、コンピューティングプラットフォームのメモリ要件を削減する。モデルデータに利用可能なGPUメモリは、潮のようなパターンで定期的に変化し、反復的に減少し増大する。しかし、既存の異種訓練は、このパターンを生かしていない。その代わり、モデルデータをcpuとgpuに静的に分割し、メモリ浪費とメモリ乱用の両方を引き起こします。対照的にpatrickstarはモデルデータをチャンクで管理し、異種メモリ空間に動的に分散する。チャンクは、トレーニング中に有限状態マシンとして実行されるステートフルテンソルで構成される。ウォームアップイテレーションで収集されたランタイムメモリ統計によってガイドされ、チャンクはヘテロジニアスメモリで効率的にオーケストレーションされ、低CPU-GPUデータ転送ボリュームを生成する。 zero redundancyオプティマイザとの共生により、patrickstarはデータ並列性を使用して複数のgpuにスケールする。実験の結果、PatrickStarは8-V100と240GBのCPUメモリノード上で、STOAよりも2倍の12億パラメータのGPTモデルを訓練し、同じモデルサイズでより効率的であることがわかった。

関連論文リスト

APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。 i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文参考訳（メタデータ） (2024-12-06T18:55:34Z)
Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading [2.8231000588510757]
トランスフォーマーと大規模言語モデル(LLM)は、すべてのドメインで急速に採用されている。変圧器の訓練は非常に高価で、しばしば記憶壁にぶつかる」本稿では,LLMをCPUまたはGPU上で更新フェーズをスケジュールしたサブグループに分割する手法を提案する。
論文参考訳（メタデータ） (2024-10-26T00:43:59Z)
OmniBal: Towards Fast Instruct-tuning for Vision-Language Models via Omniverse Computation Balance [65.48009829137824]
視覚言語インストラクションチューニングモデルにおける大規模3D並列トレーニングは、異なるデバイス間で不均衡な計算負荷をもたらす。私たちはこの問題に対処するために、データ、モデル、メモリの観点から計算負荷を再バランスさせました。提案手法の有効性と一般化性は,様々なモデルやデータセットでさらに実証された。
論文参考訳（メタデータ） (2024-07-30T12:02:58Z)
Pipette: Automatic Fine-grained Large Language Model Training Configurator for Real-World Clusters [5.190794062263327]
大規模言語モデル(LLM)の訓練は、膨大な計算能力とメモリ容量の要求のために困難であることが知られている。本稿では,実世界のクラスタを対象としたLLM自動微粒化トレーニングであるPipetteを提案する。
論文参考訳（メタデータ） (2024-05-28T11:59:44Z)
AI and Memory Wall [81.06494558184049]
メモリ帯域幅がデコーダモデルの主要なボトルネックとなることを示す。私たちは、このメモリ制限を克服するためのモデルアーキテクチャ、トレーニング、デプロイメント戦略の再設計を主張します。
論文参考訳（メタデータ） (2024-03-21T04:31:59Z)
Elixir: Train a Large Language Model on a Small GPU Cluster [6.578131399847817]
大規模な言語モデルは前例のない規模で大きな成功を収めた。 Elixirは、実行前のモデルプロファイリングに基づいて、効率的な大規模モデルのトレーニングを自動化する。 Elixirは現在の最先端のベースラインを大きく上回っている。
論文参考訳（メタデータ） (2022-12-10T17:26:05Z)
Incremental Online Learning Algorithms Comparison for Gesture and Visual Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文参考訳（メタデータ） (2022-09-01T17:05:20Z)
On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文参考訳（メタデータ） (2022-06-30T17:59:08Z)
Communication-Efficient TeraByte-Scale Model Training Framework for Online Advertising [32.5337643852876]
CTR(Click-Through Rate)予測は、オンライン広告業界において重要な要素である。大規模な広告モデルのための既存のGPUトレーニングにおける2つの大きな課題を特定します。ハードウェアトポロジをアルゴリズム設計に結合するハードウェア対応トレーニングワークフローを提案する。
論文参考訳（メタデータ） (2022-01-05T18:09:11Z)
Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文参考訳（メタデータ） (2021-10-13T20:58:15Z)
M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文参考訳（メタデータ） (2021-10-08T04:24:51Z)
Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文参考訳（メタデータ） (2021-04-30T16:55:28Z)
ScaleFreeCTR: MixCache-based Distributed Training System for CTR Models with Huge Embedding Table [23.264897780201316]
様々なCTR(Deep Click-Through Rate)モデルが工業企業によって商用システムに展開されています。優れた性能を得るためには、大量のトレーニングデータに基づいて深部CTRモデルを効率的に訓練する必要がある。 ScaleFreeCTR:CTRモデルのためのMixCacheベースの分散トレーニングシステムを提案する。
論文参考訳（メタデータ） (2021-04-17T13:36:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。