論文の概要: Pipeline Parallelism with Controllable Memory
- arxiv url: http://arxiv.org/abs/2405.15362v2
- Date: Wed, 5 Jun 2024 08:19:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 23:59:22.764292
- Title: Pipeline Parallelism with Controllable Memory
- Title(参考訳): 制御可能なメモリを用いたパイプライン並列処理
- Authors: Penghui Qi, Xinyi Wan, Nyamdavaa Amar, Min Lin,
- Abstract要約: 既存のパイプラインスケジュールのほとんどすべてが、私たちの知る限り、メモリ非効率であることを示しています。
制御可能なアクティベーションメモリを備えたメモリ効率の高いビルディングブロック群を導入し,最大アクティベーションメモリを1F1Bの1/2に削減する。
- 参考スコア(独自算出の注目度): 6.135123843073223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pipeline parallelism has been widely explored, but most existing schedules lack a systematic methodology. In this paper, we propose a framework to decompose pipeline schedules as repeating a building block and we show that the lifespan of the building block decides the peak activation memory of the pipeline schedule. Guided by the observations, we find that almost all existing pipeline schedules, to the best of our knowledge, are memory inefficient. To address this, we introduce a family of memory efficient building blocks with controllable activation memory, which can reduce the peak activation memory to 1/2 of 1F1B without sacrificing efficiency, and even to 1/3 with comparable throughput. We can also achieve almost zero pipeline bubbles while maintaining the same activation memory as 1F1B. Our evaluations demonstrate that in pure pipeline parallelism settings, our methods outperform 1F1B by from 7% to 55% in terms of throughput. When employing a grid search over hybrid parallelism hyperparameters in practical scenarios, our proposed methods demonstrate a 16% throughput improvement over the 1F1B baseline for large language models.
- Abstract(参考訳): パイプライン並列性は広く研究されてきたが、既存のスケジュールには体系的な方法論がない。
本稿では,パイプラインスケジュールをビルディングブロックの繰り返しとして分解するフレームワークを提案し,ビルディングブロックの寿命がパイプラインスケジュールのピークアクティベーションメモリを決定することを示す。
観察によってガイドされた結果,既存のパイプラインスケジュールのほとんどすべてが,私たちの知る限りでは,メモリ非効率であることが分かりました。
これを解決するために、制御可能なアクティベーションメモリを備えたメモリ効率の良いビルディングブロック群を導入し、1F1Bのピークアクティベーションメモリを、効率を犠牲にすることなく1/2に削減し、最大スループットで1/3にまで削減する。
また、1F1Bと同じアクティベーションメモリを維持しながら、ほぼゼロのパイプラインバブルを実現できる。
我々の評価は、純粋なパイプライン並列化設定では、スループットの点で1F1Bを7%から55%上回っていることを示している。
提案手法は,大規模言語モデルの1F1Bベースラインよりも16%のスループット向上を示す。
関連論文リスト
- 2BP: 2-Stage Backpropagation [0.0]
本稿では2段階バックプロパゲーション(2BP)を紹介する。
後方伝播ステップを2つの別々のステージに分割することで、アイドル計算時間を短縮できる。
2BPでは従来の手法に比べてスループットが1.70倍向上した。
論文 参考訳(メタデータ) (2024-05-28T11:02:01Z) - PipeFusion: Patch-level Pipeline Parallelism for Diffusion Transformers Inference [5.704297874096985]
PipeFusionは、複数のGPUでイメージをパッチとモデルレイヤに分割する。
通信と計算を効率的にオーケストレーションするために、パッチレベルのパイプライン並列戦略を採用している。
論文 参考訳(メタデータ) (2024-05-23T11:00:07Z) - Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - PipeOptim: Ensuring Effective 1F1B Schedule with Optimizer-Dependent
Weight Prediction [37.05698088730229]
1F1B (one forward, one backward) スケジュールを持つ非同期パイプラインモデル並列処理は、バブルオーバーヘッドをほとんど発生しない。
「1F1B」スケジュールは必然的に、異なるミニバッチのクロストレーニングによる重量不整合と重量安定の問題を引き起こす。
非同期パイプライン学習のための独立重み予測戦略(PipeOptim)を提案する。
論文 参考訳(メタデータ) (2023-12-01T01:52:38Z) - Zero Bubble Pipeline Parallelism [6.7021820542657045]
実験により,本手法は1F1Bのスループットを23%まで向上させることを示した。
パイプライン並列化の真の可能性を活用する上で、我々の結果は大きな一歩だと信じています。
論文 参考訳(メタデータ) (2023-11-30T10:40:34Z) - UniPT: Universal Parallel Tuning for Transfer Learning with Efficient
Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。
最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。
メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文 参考訳(メタデータ) (2023-08-28T05:38:43Z) - Pipe-BD: Pipelined Parallel Blockwise Distillation [7.367308544773381]
ブロックワイド蒸留のための新しい並列化法であるパイプ-BDを提案する。
パイプ-BDはパイプライン並列性をブロックワイド蒸留に積極的に利用する。
PyTorch 上で Pipe-BD を実装し,複数のシナリオやモデル,データセットに対して Pipe-BD が有効であることを示す実験を行った。
論文 参考訳(メタデータ) (2023-01-29T13:38:43Z) - RMM: Reinforced Memory Management for Class-Incremental Learning [102.20140790771265]
クラスインクリメンタルラーニング(CIL)は、厳格な記憶予算の下で分類器を訓練する。
既存のメソッドは静的およびアドホックな戦略を使ってメモリ割り当てを行うが、これはしばしば準最適である。
本稿では,段階的な段階と異なるオブジェクトクラスに最適化された動的メモリ管理戦略を提案する。
論文 参考訳(メタデータ) (2023-01-14T00:07:47Z) - BiBERT: Accurate Fully Binarized BERT [69.35727280997617]
BiBERTは、パフォーマンスボトルネックを取り除くために、正確に2項化されたBERTである。
提案手法は,FLOPとモデルサイズで56.3回,31.2回節約できる。
論文 参考訳(メタデータ) (2022-03-12T09:46:13Z) - Group Fisher Pruning for Practical Network Compression [58.25776612812883]
本稿では,様々な複雑な構造に応用可能な汎用チャネルプルーニング手法を提案する。
我々は、単一チャネルと結合チャネルの重要性を評価するために、フィッシャー情報に基づく統一されたメトリクスを導出する。
提案手法は,結合チャネルを含む任意の構造をプルークするために利用できる。
論文 参考訳(メタデータ) (2021-08-02T08:21:44Z) - TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale
Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。
TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文 参考訳(メタデータ) (2021-02-16T07:34:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。