論文の概要: Re-evaluating the Memory-balanced Pipeline Parallelism: BPipe
- arxiv url: http://arxiv.org/abs/2401.02088v1
- Date: Thu, 4 Jan 2024 06:23:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 15:57:32.970794
- Title: Re-evaluating the Memory-balanced Pipeline Parallelism: BPipe
- Title(参考訳): メモリバランスパイプライン並列性の再評価:bpipe
- Authors: Mincong Huang, Chao Wang, Chi Ma, Yineng Zhang, Peng Zhang, Lei Yu
- Abstract要約: BPipe技術はGPT-3モデルで有効であることが証明されている。
しかし,LLaMAトレーニングでは同様の効果は得られていない。
本稿では,BPipeの性能を推定する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 11.558755687582853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pipeline parallelism is an essential technique in the training of large-scale
Transformer models. However, it suffers from imbalanced memory consumption,
leading to insufficient memory utilization. The BPipe technique was proposed to
address this issue and has proven effective in the GPT-3 model. Nevertheless,
our experiments have not yielded similar benefits for LLaMA training.
Additionally, BPipe only yields negligible benefits for GPT-3 training when
applying flash attention. We analyze the underlying causes of the divergent
performance of BPipe on GPT-3 and LLaMA. Furthermore, we introduce a novel
method to estimate the performance of BPipe.
- Abstract(参考訳): パイプライン並列性は大規模トランスフォーマーモデルのトレーニングにおいて不可欠な技術である。
しかし、メモリ消費の不均衡に苦しむため、メモリ使用量が不足する。
BPipe技術はこの問題に対処するために提案され、GPT-3モデルで有効であることが証明された。
それにもかかわらず、我々の実験はラマトレーニングに同様の利点を与えていない。
加えて、BPipeはフラッシュアテンションを施す場合、GPT-3トレーニングに対して無視できる利益しか得られない。
GPT-3およびLLaMA上でのBPipeの発散性能の根本的な原因を解析した。
さらに,BPipeの性能を推定する新しい手法を提案する。
関連論文リスト
- When Foresight Pruning Meets Zeroth-Order Optimization: Efficient Federated Learning for Low-Memory Devices [36.23767349592602]
Federated Learning (FL)は、AIoT(Artificial Intelligence of Things)設計における協調学習を可能にする。
FLはメモリ使用量が多いため、低メモリのAIoTデバイスでは動作しない。
本稿では,フェデレートされたBPフリートレーニングフレームワークとシームレスに統合可能な,ニューラル・タンジェント・カーネル(NTK)に基づくフェデレーションフォレスト・プルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-08T02:24:09Z) - PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では,PYRA(Parallel Yielding Re-Activation)手法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - PipeOptim: Ensuring Effective 1F1B Schedule with Optimizer-Dependent
Weight Prediction [37.05698088730229]
1F1B (one forward, one backward) スケジュールを持つ非同期パイプラインモデル並列処理は、バブルオーバーヘッドをほとんど発生しない。
「1F1B」スケジュールは必然的に、異なるミニバッチのクロストレーニングによる重量不整合と重量安定の問題を引き起こす。
非同期パイプライン学習のための独立重み予測戦略(PipeOptim)を提案する。
論文 参考訳(メタデータ) (2023-12-01T01:52:38Z) - Zero Bubble Pipeline Parallelism [6.7021820542657045]
実験により,本手法は1F1Bのスループットを23%まで向上させることを示した。
パイプライン並列化の真の可能性を活用する上で、我々の結果は大きな一歩だと信じています。
論文 参考訳(メタデータ) (2023-11-30T10:40:34Z) - Efficient RLHF: Reducing the Memory Usage of PPO [61.45357428856269]
本稿では,PPOのためのメモリセーブ技術におけるメモリ使用量,性能,トレーニング時間を総合的に分析する。
まず、SFTモデルとRewardモデルを統合し、訓練中にLoRAを動的にオフにすることで、Hydra-RLHFを導入する。
以上の結果から,Hydra-PPOはRLHFをより広く活用するためのシンプルで有望なソリューションであることが示された。
論文 参考訳(メタデータ) (2023-09-01T22:57:20Z) - UniPT: Universal Parallel Tuning for Transfer Learning with Efficient
Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。
最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。
メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文 参考訳(メタデータ) (2023-08-28T05:38:43Z) - Provably Efficient Bayesian Optimization with Unbiased Gaussian Process
Hyperparameter Estimation [52.035894372374756]
目的関数の大域的最適値にサブ線形収束できる新しいBO法を提案する。
本手法では,BOプロセスにランダムなデータポイントを追加するために,マルチアームバンディット法 (EXP3) を用いる。
提案手法は, 様々な合成および実世界の問題に対して, 既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-12T03:35:45Z) - PipeFisher: Efficient Training of Large Language Models Using Pipelining
and Fisher Information Matrices [21.963041375857117]
そこで本研究では,Fisher情報行列に基づく2次最適化手法であるK-FACをバブルに割り当てて収束を加速するPipeFisherを提案する。
BERTベースとラージモデルの第1フェーズ事前トレーニングでは、PipeFisherは1次オーダーのトレーニングと比較して、(シミュレーションされた)トレーニング時間を50-75%に短縮する。
論文 参考訳(メタデータ) (2022-11-25T14:16:35Z) - BP-Triplet Net for Unsupervised Domain Adaptation: A Bayesian
Perspective [18.718713363976835]
ディープ・メトリック・ラーニング(DML)手法の1つであるトリプルト・ロス(英語版)は、同じクラスの例が異なるクラスの例よりも近い埋め込みを学習することである。
ベイズ学習の観点から,教師なしドメイン適応(UDA)に有効なBP-Triplet Lossを提案する。
論文 参考訳(メタデータ) (2022-02-19T07:12:57Z) - A Theoretical View of Linear Backpropagation and Its Convergence [55.69505060636719]
バックプロパゲーション(BP)はディープニューラルネットワーク(DNN)の勾配を計算するために広く用いられている
最近では、NinBPと呼ばれるBPの線形変種が導入され、ブラックボックス攻撃を行うためのより伝達可能な逆の例が生み出された。
本稿では,LinBPのニューラルネットワーク関連学習課題における理論的解析について述べる。
論文 参考訳(メタデータ) (2021-12-21T07:18:00Z) - TernaryBERT: Distillation-aware Ultra-low Bit BERT [53.06741585060951]
本稿では,細調整されたBERTモデルの重みを3元化するternaryBERTを提案する。
GLUEベンチマークとSQuADの実験により,提案した TernaryBERT が他のBERT量子化法より優れていることが示された。
論文 参考訳(メタデータ) (2020-09-27T10:17:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。