論文の概要: PipeOptim: Ensuring Effective 1F1B Schedule with Optimizer-Dependent
Weight Prediction
- arxiv url: http://arxiv.org/abs/2312.00839v2
- Date: Tue, 5 Dec 2023 07:16:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 12:48:07.498343
- Title: PipeOptim: Ensuring Effective 1F1B Schedule with Optimizer-Dependent
Weight Prediction
- Title(参考訳): PipeOptim: 最適化器依存重量予測による有効1F1Bスケジュールの保証
- Authors: Lei Guan, Dongsheng Li, Jiye Liang, Wenjian Wang, Xicheng Lu
- Abstract要約: 1F1B (one forward, one backward) スケジュールを持つ非同期パイプラインモデル並列処理は、バブルオーバーヘッドをほとんど発生しない。
「1F1B」スケジュールは必然的に、異なるミニバッチのクロストレーニングによる重量不整合と重量安定の問題を引き起こす。
非同期パイプライン学習のための独立重み予測戦略(PipeOptim)を提案する。
- 参考スコア(独自算出の注目度): 37.05698088730229
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Asynchronous pipeline model parallelism with a "1F1B" (one forward, one
backward) schedule generates little bubble overhead and always provides quite a
high throughput. However, the "1F1B" schedule inevitably leads to weight
inconsistency and weight staleness issues due to the cross-training of
different mini-batches across GPUs. To simultaneously address these two
problems, in this paper, we propose an optimizer-dependent weight prediction
strategy (a.k.a PipeOptim) for asynchronous pipeline training. The key insight
of our proposal is that we employ a weight prediction strategy in the forward
pass to ensure that each mini-batch uses consistent and staleness-free weights
to compute the forward pass. To be concrete, we first construct the weight
prediction scheme based on the update rule of the used optimizer when training
the deep neural network models. Then throughout the "1F1B" pipelined training,
each mini-batch is mandated to execute weight prediction ahead of the forward
pass, subsequently employing the predicted weights to perform the forward pass.
As a result, PipeOptim 1) inherits the advantage of the "1F1B" schedule and
generates pretty high throughput, and 2) can ensure effective parameter
learning regardless of the type of the used optimizer. To verify the
effectiveness of our proposal, we conducted extensive experimental evaluations
using eight different deep-learning models spanning three machine-learning
tasks including image classification, sentiment analysis, and machine
translation. The experiment results demonstrate that PipeOptim outperforms the
popular pipelined approaches including GPipe, PipeDream, PipeDream-2BW, and
SpecTrain. The code of PipeOptim can be accessible at
https://github.com/guanleics/PipeOptim.
- Abstract(参考訳): 1F1B"(1つの前方、1つの後方)スケジュールを持つ非同期パイプラインモデル並列処理は、バブルオーバーヘッドが少なく、常に高いスループットを提供する。
しかし、"1f1b"スケジュールは、gpu間で異なるミニバッチをクロストレーニングするため、必然的に重みの矛盾と重りの停滞に繋がる。
本稿では,これら2つの問題に同時に対処するため,非同期パイプライン学習のための最適化器依存の重み予測戦略(PipeOptim)を提案する。
我々の提案の重要な洞察は、各ミニバッチが前方通過を計算するために一貫性と安定度のない重みを使用するように、前方通過に重み予測戦略を採用することである。
具体的には,ニューラルネットワークモデルのトレーニング時に使用するオプティマイザの更新ルールに基づいて,まず重み予測スキームを構築した。
その後、「1F1B」パイプライン訓練を通して、各ミニバッチは前方通過よりも先に重量予測を行い、その後予測重量を用いて前方通過を行うように強制される。
その結果 パイプオプティマイムは
1)"1F1B"スケジュールの利点を継承し、非常に高いスループットを生成します。
2) 使用するオプティマイザの種類に関わらず,効果的なパラメータ学習を実現する。
提案手法の有効性を検証するため,画像分類,感情分析,機械翻訳を含む3つの機械学習タスクにまたがる8種類のディープラーニングモデルを用いて実験を行った。
実験の結果,パイプオプティマイムはgpipe,pipedream,pipedream-2bw,spectruminなどの一般的なパイプラインアプローチよりも優れていた。
PipeOptimのコードはhttps://github.com/guanleics/PipeOptimでアクセスできる。
関連論文リスト
- Forecast-PEFT: Parameter-Efficient Fine-Tuning for Pre-trained Motion Forecasting Models [68.23649978697027]
Forecast-PEFTは、モデルのパラメータの大部分を凍結し、新しく導入されたプロンプトとアダプタの調整に集中する微調整戦略である。
実験の結果,Forecast-PEFTは動作予測タスクにおいて従来のフルチューニング手法よりも優れていた。
Forecast-FTは予測性能をさらに改善し、従来のベースライン法よりも最大9.6%向上した。
論文 参考訳(メタデータ) (2024-07-28T19:18:59Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Zero Bubble Pipeline Parallelism [6.7021820542657045]
実験により,本手法は1F1Bのスループットを23%まで向上させることを示した。
パイプライン並列化の真の可能性を活用する上で、我々の結果は大きな一歩だと信じています。
論文 参考訳(メタデータ) (2023-11-30T10:40:34Z) - SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language
Models [4.114555639014612]
本研究は,非構造的重み空間を用いて,事前訓練中にのみ重みのサブセットを訓練する利点を示す。
我々は1.3Bパラメータ GPT-3 XL モデルに最大75%の間隔を誘導できることを示す。
論文 参考訳(メタデータ) (2023-03-18T17:56:01Z) - Learning to Re-weight Examples with Optimal Transport for Imbalanced
Classification [74.62203971625173]
不均衡データは、ディープラーニングに基づく分類モデルに課題をもたらす。
不均衡なデータを扱うための最も広く使われているアプローチの1つは、再重み付けである。
本稿では,分布の観点からの最適輸送(OT)に基づく新しい再重み付け手法を提案する。
論文 参考訳(メタデータ) (2022-08-05T01:23:54Z) - Sample-Efficient Optimisation with Probabilistic Transformer Surrogates [66.98962321504085]
本稿では,ベイズ最適化における最先端確率変換器の適用可能性について検討する。
トレーニング手順と損失定義から生じる2つの欠点を観察し、ブラックボックス最適化のプロキシとして直接デプロイすることを妨げる。
1)非一様分散点を前処理するBO調整トレーニング,2)予測性能を向上させるために最適な定常点をフィルタする新しい近似後正則整定器トレードオフ精度と入力感度を導入する。
論文 参考訳(メタデータ) (2022-05-27T11:13:17Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - Pipelined Backpropagation at Scale: Training Large Models without
Batches [0.9580895202050946]
我々は,非同期パイプライン並列学習アルゴリズムである細粒度パイプラインバックプロパゲーションの小型バッチの利用を評価した。
適切な正規化と小さなバッチサイズは、トレーニングにも役立ちます。
論文 参考訳(メタデータ) (2020-03-25T22:26:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。