論文の概要: Re-evaluating the Memory-balanced Pipeline Parallelism: BPipe
- arxiv url: http://arxiv.org/abs/2401.02088v1
- Date: Thu, 4 Jan 2024 06:23:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 15:57:32.970794
- Title: Re-evaluating the Memory-balanced Pipeline Parallelism: BPipe
- Title(参考訳): メモリバランスパイプライン並列性の再評価:bpipe
- Authors: Mincong Huang, Chao Wang, Chi Ma, Yineng Zhang, Peng Zhang, Lei Yu
- Abstract要約: BPipe技術はGPT-3モデルで有効であることが証明されている。
しかし,LLaMAトレーニングでは同様の効果は得られていない。
本稿では,BPipeの性能を推定する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 11.558755687582853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pipeline parallelism is an essential technique in the training of large-scale
Transformer models. However, it suffers from imbalanced memory consumption,
leading to insufficient memory utilization. The BPipe technique was proposed to
address this issue and has proven effective in the GPT-3 model. Nevertheless,
our experiments have not yielded similar benefits for LLaMA training.
Additionally, BPipe only yields negligible benefits for GPT-3 training when
applying flash attention. We analyze the underlying causes of the divergent
performance of BPipe on GPT-3 and LLaMA. Furthermore, we introduce a novel
method to estimate the performance of BPipe.
- Abstract(参考訳): パイプライン並列性は大規模トランスフォーマーモデルのトレーニングにおいて不可欠な技術である。
しかし、メモリ消費の不均衡に苦しむため、メモリ使用量が不足する。
BPipe技術はこの問題に対処するために提案され、GPT-3モデルで有効であることが証明された。
それにもかかわらず、我々の実験はラマトレーニングに同様の利点を与えていない。
加えて、BPipeはフラッシュアテンションを施す場合、GPT-3トレーニングに対して無視できる利益しか得られない。
GPT-3およびLLaMA上でのBPipeの発散性能の根本的な原因を解析した。
さらに,BPipeの性能を推定する新しい手法を提案する。
関連論文リスト
- Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能評価のためのより効率的な指標として、事前学習損失に焦点を当てている。
我々は、データソース間のFLOPに基づいて、ドメイン固有の事前学習損失を予測するために、電力法解析関数を拡張した。
我々は2層ニューラルネットワークを用いて、複数のドメイン固有の損失と下流性能の非線形関係をモデル化する。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - GPT vs RETRO: Exploring the Intersection of Retrieval and Parameter-Efficient Fine-Tuning [48.71952325015267]
PEFT法を改良型Retrieval-Enhanced Transformer (RETRO) およびベースラインGPTモデルに適用する。
本稿では、RETROモデルが、独自の事前学習プロセスにより、ゼロショット設定でGPTモデルより優れていることを示す。
本研究は, GPTモデルとRETROモデルの両方に適用された各種PEFT法をRAGと統合した最初の包括的比較である。
論文 参考訳(メタデータ) (2024-07-05T14:16:47Z) - Pipeline Parallelism with Controllable Memory [6.135123843073223]
既存のパイプラインスケジュールのほとんどすべてがメモリ非効率であることが示されています。
制御可能なアクティベーションメモリを備えた,メモリ効率の良いビルディングブロック群を紹介する。
1F1Bと同じアクティベーションメモリを維持しながら、ほぼゼロのパイプラインバブルを実現することができる。
論文 参考訳(メタデータ) (2024-05-24T08:54:36Z) - PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - Zero Bubble Pipeline Parallelism [6.7021820542657045]
実験により,本手法は1F1Bのスループットを23%まで向上させることを示した。
パイプライン並列化の真の可能性を活用する上で、我々の結果は大きな一歩だと信じています。
論文 参考訳(メタデータ) (2023-11-30T10:40:34Z) - Efficient RLHF: Reducing the Memory Usage of PPO [61.45357428856269]
本稿では,PPOのためのメモリセーブ技術におけるメモリ使用量,性能,トレーニング時間を総合的に分析する。
まず、SFTモデルとRewardモデルを統合し、訓練中にLoRAを動的にオフにすることで、Hydra-RLHFを導入する。
以上の結果から,Hydra-PPOはRLHFをより広く活用するためのシンプルで有望なソリューションであることが示された。
論文 参考訳(メタデータ) (2023-09-01T22:57:20Z) - UniPT: Universal Parallel Tuning for Transfer Learning with Efficient
Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。
最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。
メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文 参考訳(メタデータ) (2023-08-28T05:38:43Z) - PipeFisher: Efficient Training of Large Language Models Using Pipelining
and Fisher Information Matrices [21.963041375857117]
そこで本研究では,Fisher情報行列に基づく2次最適化手法であるK-FACをバブルに割り当てて収束を加速するPipeFisherを提案する。
BERTベースとラージモデルの第1フェーズ事前トレーニングでは、PipeFisherは1次オーダーのトレーニングと比較して、(シミュレーションされた)トレーニング時間を50-75%に短縮する。
論文 参考訳(メタデータ) (2022-11-25T14:16:35Z) - BP-Triplet Net for Unsupervised Domain Adaptation: A Bayesian
Perspective [18.718713363976835]
ディープ・メトリック・ラーニング(DML)手法の1つであるトリプルト・ロス(英語版)は、同じクラスの例が異なるクラスの例よりも近い埋め込みを学習することである。
ベイズ学習の観点から,教師なしドメイン適応(UDA)に有効なBP-Triplet Lossを提案する。
論文 参考訳(メタデータ) (2022-02-19T07:12:57Z) - A Theoretical View of Linear Backpropagation and Its Convergence [55.69505060636719]
バックプロパゲーション(BP)はディープニューラルネットワーク(DNN)の勾配を計算するために広く用いられている
最近では、NinBPと呼ばれるBPの線形変種が導入され、ブラックボックス攻撃を行うためのより伝達可能な逆の例が生み出された。
本稿では,LinBPのニューラルネットワーク関連学習課題における理論的解析について述べる。
論文 参考訳(メタデータ) (2021-12-21T07:18:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。