Fugu-MT 論文翻訳(概要): Memory-Efficient Pipeline-Parallel DNN Training

論文の概要: Memory-Efficient Pipeline-Parallel DNN Training

arxiv url: http://arxiv.org/abs/2006.09503v3
Date: Thu, 22 Jul 2021 17:25:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-20 20:31:17.417271
Title: Memory-Efficient Pipeline-Parallel DNN Training
Title（参考訳）: メモリ効率の良いパイプライン並列DNNトレーニング
Authors: Deepak Narayanan, Amar Phanishayee, Kaiyu Shi, Xie Chen, Matei Zaharia
Abstract要約: PipeDream-2BWは、メモリ効率の高いパイプライン並列処理をサポートするシステムである。大規模なGPTおよびBERT言語モデルのトレーニングを20$times$で、同様の最終モデルの精度で高速化することができる。
参考スコア（独自算出の注目度）: 27.83107540482083
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Many state-of-the-art ML results have been obtained by scaling up the number of parameters in existing models. However, parameters and activations for such large models often do not fit in the memory of a single accelerator device; this means that it is necessary to distribute training of large models over multiple accelerators. In this work, we propose PipeDream-2BW, a system that supports memory-efficient pipeline parallelism. PipeDream-2BW uses a novel pipelining and weight gradient coalescing strategy, combined with the double buffering of weights, to ensure high throughput, low memory footprint, and weight update semantics similar to data parallelism. In addition, PipeDream-2BW automatically partitions the model over the available hardware resources, while respecting hardware constraints such as memory capacities of accelerators and interconnect topologies. PipeDream-2BW can accelerate the training of large GPT and BERT language models by up to 20$\times$ with similar final model accuracy.
Abstract（参考訳）: 既存のモデルのパラメータ数をスケールアップすることで、最先端MLの多くの結果が得られた。しかし、そのような大きなモデルのパラメータやアクティベーションは単一の加速器装置のメモリに収まらないことが多いため、複数の加速器上で大きなモデルのトレーニングを分散させる必要がある。本研究では,メモリ効率のよいパイプライン並列処理を実現するシステムpipedream-2bwを提案する。 PipeDream-2BWは、新しいパイプライニングと重み勾配の合体戦略と重みの二重バッファリングを組み合わせて、高いスループット、低メモリフットプリント、およびデータ並列性に似た重み更新セマンティクスを保証する。さらにpipedream-2bwは、アクセラレーションのメモリ容量やインターコネクトトポロジなどのハードウェア制約を尊重しながら、利用可能なハードウェアリソース上でモデルを自動的に分割する。 PipeDream-2BWは、大規模なGPTおよびBERT言語モデルのトレーニングを、同様の最終モデルの精度で最大20$\times$で高速化することができる。

関連論文リスト

Two-dimensional Sparse Parallelism for Large Scale Deep Learning Recommendation Model Training [9.47829333855806]
ディープラーニングレコメンデーションモデル(DLRM)では、スパース埋め込みテーブルはスパースカテゴリの特徴を管理する重要なコンポーネントである。本稿では,スケーラビリティの課題を克服する新しい2次元スパース並列化手法を提案する。提案手法は,モデル性能の同等性を保ちながら,トレーニング効率を大幅に向上することを示す。
論文参考訳（メタデータ） (2025-08-05T19:12:18Z)
SlimPipe: Memory-Thrifty and Efficient Pipeline Parallelism for Long-Context LLM Training [21.93724007255793]
SlimPipeは、きめ細かいパイプライン並列化に対する新しいアプローチである。蓄積した活性化をいくつかのマイクロバッチから1つに減らし、いくつかのスライスに分割する。ほぼゼロのメモリオーバーヘッドを達成し、(2)パイプラインバブルを同時に最小化する。
論文参考訳（メタデータ） (2025-04-20T07:33:33Z)
Memory Layers at Scale [67.00854080570979]
この研究はメモリ層を概念実証以上のものにし、現代の規模でその有用性を証明している。ダウンストリームタスクでは、改善されたメモリ層で強化された言語モデルは、予算の2倍以上の高密度モデルよりも優れており、計算とパラメータの両方にマッチする場合の熟練モデルの混合も優れている。最大128Bのメモリパラメータを持つスケーリング法則を1兆トークンまで事前訓練し,最大8Bパラメータを持つベースモデルと比較した,完全な並列化可能なメモリレイヤの実装を提供する。
論文参考訳（メタデータ） (2024-12-12T23:56:57Z)
Superpipeline: A Universal Approach for Reducing GPU Memory Usage in Large Models [40.41898661688188]
本稿では,制約ハードウェア上での大規模AIモデルの実行を最適化するフレームワークであるSuperpipelineを紹介する。 Superpipelineは、モデル精度と許容する処理速度を維持しながら、実験でGPUメモリ使用量を最大60%削減します。
論文参考訳（メタデータ） (2024-10-11T13:17:05Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
Pipette: Automatic Fine-grained Large Language Model Training Configurator for Real-World Clusters [5.190794062263327]
大規模言語モデル(LLM)の訓練は、膨大な計算能力とメモリ容量の要求のために困難であることが知られている。本稿では,実世界のクラスタを対象としたLLM自動微粒化トレーニングであるPipetteを提案する。
論文参考訳（メタデータ） (2024-05-28T11:59:44Z)
2BP: 2-Stage Backpropagation [0.0]
本稿では2段階バックプロパゲーション(2BP)を紹介する。後方伝播ステップを2つの別々のステージに分割することで、アイドル計算時間を短縮できる。 2BPでは従来の手法に比べてスループットが1.70倍向上した。
論文参考訳（メタデータ） (2024-05-28T11:02:01Z)
Partitioned Neural Network Training via Synthetic Intermediate Labels [0.0]
GPUメモリの制約は、そのような巨大なモデルをトレーニングする上で、注目すべきボトルネックになっている。この研究は、モデルをGPU間で分割し、個々のセグメントをトレーニングするために合成中間ラベルを生成することを提唱する。このアプローチは、モデル精度を維持しながらデータ通信を最小限に抑える、より効率的なトレーニングプロセスをもたらす。
論文参考訳（メタデータ） (2024-03-17T13:06:29Z)
BitDelta: Your Fine-Tune May Only Be Worth One Bit [57.558376557639555]
大規模言語モデル(LLM)は通常、大規模なインターネットスケールデータセットの事前トレーニングと、下流タスクの微調整という2つのフェーズでトレーニングされる。我々は,このデルタを1ビットまで量子化する簡単な手法BitDeltaを導入し,性能を損なうことなく実現した。複数の1ビットデルタを伴う1つの高精度ベースモデルを使用することで、BitDeltaはGPUメモリの要求を劇的に10倍に削減する。
論文参考訳（メタデータ） (2024-02-15T18:50:06Z)
Pipeline MoE: A Flexible MoE Implementation with Pipeline Parallelism [91.9372563527801]
既存のMoEモデルは、膨大な内部ノードとノード間通信オーバーヘッドに悩まされる。本稿では,新しいMoEアーキテクチャであるPipeline MoE(PPMoE)を提案する。 PPMoEは、テンソル並列を組み込んだ専門家の並列処理を構築し、通信集約型の全対一のディスパッチとコレクションを置き換える。
論文参考訳（メタデータ） (2023-04-22T14:09:14Z)
SWARM Parallelism: Training Large Models Can Be Surprisingly Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文参考訳（メタデータ） (2023-01-27T18:55:19Z)
M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文参考訳（メタデータ） (2021-10-08T04:24:51Z)
Automatic Graph Partitioning for Very Large-scale Deep Learning [4.472135966077758]
本研究では,自動ハイブリッド並列処理のためのRaNNC(Rapid Neural Network Connector)を提案する。 RaNNCは自動的にモデルをサブコンポーネントのセットに分割し、各サブコンポーネントがデバイスメモリに適合するようにします。 RaNNCはMegatron-LMよりも5倍大きなモデルのトレーニングに成功し、RaNNCのトレーニングスループットは、同じモデルを事前トレーニングする際にMegatron-LMに匹敵するものでした。
論文参考訳（メタデータ） (2021-03-30T04:26:04Z)
Scaling Distributed Deep Learning Workloads beyond the Memory Capacity with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文参考訳（メタデータ） (2020-08-26T07:24:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。