Fugu-MT 論文翻訳(概要): PipeOptim: Ensuring Effective 1F1B Schedule with Optimizer-Dependent Weight Prediction

論文の概要: PipeOptim: Ensuring Effective 1F1B Schedule with Optimizer-Dependent Weight Prediction

arxiv url: http://arxiv.org/abs/2312.00839v2
Date: Tue, 5 Dec 2023 07:16:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-06 12:48:07.498343
Title: PipeOptim: Ensuring Effective 1F1B Schedule with Optimizer-Dependent Weight Prediction
Title（参考訳）: PipeOptim: 最適化器依存重量予測による有効1F1Bスケジュールの保証
Authors: Lei Guan, Dongsheng Li, Jiye Liang, Wenjian Wang, Xicheng Lu
Abstract要約: 1F1B (one forward, one backward) スケジュールを持つ非同期パイプラインモデル並列処理は、バブルオーバーヘッドをほとんど発生しない。「1F1B」スケジュールは必然的に、異なるミニバッチのクロストレーニングによる重量不整合と重量安定の問題を引き起こす。非同期パイプライン学習のための独立重み予測戦略(PipeOptim)を提案する。
参考スコア（独自算出の注目度）: 37.05698088730229
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Asynchronous pipeline model parallelism with a "1F1B" (one forward, one backward) schedule generates little bubble overhead and always provides quite a high throughput. However, the "1F1B" schedule inevitably leads to weight inconsistency and weight staleness issues due to the cross-training of different mini-batches across GPUs. To simultaneously address these two problems, in this paper, we propose an optimizer-dependent weight prediction strategy (a.k.a PipeOptim) for asynchronous pipeline training. The key insight of our proposal is that we employ a weight prediction strategy in the forward pass to ensure that each mini-batch uses consistent and staleness-free weights to compute the forward pass. To be concrete, we first construct the weight prediction scheme based on the update rule of the used optimizer when training the deep neural network models. Then throughout the "1F1B" pipelined training, each mini-batch is mandated to execute weight prediction ahead of the forward pass, subsequently employing the predicted weights to perform the forward pass. As a result, PipeOptim 1) inherits the advantage of the "1F1B" schedule and generates pretty high throughput, and 2) can ensure effective parameter learning regardless of the type of the used optimizer. To verify the effectiveness of our proposal, we conducted extensive experimental evaluations using eight different deep-learning models spanning three machine-learning tasks including image classification, sentiment analysis, and machine translation. The experiment results demonstrate that PipeOptim outperforms the popular pipelined approaches including GPipe, PipeDream, PipeDream-2BW, and SpecTrain. The code of PipeOptim can be accessible at https://github.com/guanleics/PipeOptim.
Abstract（参考訳）: 1F1B"(1つの前方、1つの後方)スケジュールを持つ非同期パイプラインモデル並列処理は、バブルオーバーヘッドが少なく、常に高いスループットを提供する。しかし、"1f1b"スケジュールは、gpu間で異なるミニバッチをクロストレーニングするため、必然的に重みの矛盾と重りの停滞に繋がる。本稿では,これら2つの問題に同時に対処するため,非同期パイプライン学習のための最適化器依存の重み予測戦略(PipeOptim)を提案する。我々の提案の重要な洞察は、各ミニバッチが前方通過を計算するために一貫性と安定度のない重みを使用するように、前方通過に重み予測戦略を採用することである。具体的には,ニューラルネットワークモデルのトレーニング時に使用するオプティマイザの更新ルールに基づいて,まず重み予測スキームを構築した。その後、「1F1B」パイプライン訓練を通して、各ミニバッチは前方通過よりも先に重量予測を行い、その後予測重量を用いて前方通過を行うように強制される。その結果パイプオプティマイムは 1)"1F1B"スケジュールの利点を継承し、非常に高いスループットを生成します。 2) 使用するオプティマイザの種類に関わらず,効果的なパラメータ学習を実現する。提案手法の有効性を検証するため,画像分類,感情分析,機械翻訳を含む3つの機械学習タスクにまたがる8種類のディープラーニングモデルを用いて実験を行った。実験の結果,パイプオプティマイムはgpipe,pipedream,pipedream-2bw,spectruminなどの一般的なパイプラインアプローチよりも優れていた。 PipeOptimのコードはhttps://github.com/guanleics/PipeOptimでアクセスできる。

関連論文リスト

Forecast-PEFT: Parameter-Efficient Fine-Tuning for Pre-trained Motion Forecasting Models [68.23649978697027]
Forecast-PEFTは、モデルのパラメータの大部分を凍結し、新しく導入されたプロンプトとアダプタの調整に集中する微調整戦略である。実験の結果,Forecast-PEFTは動作予測タスクにおいて従来のフルチューニング手法よりも優れていた。 Forecast-FTは予測性能をさらに改善し、従来のベースライン法よりも最大9.6%向上した。
論文参考訳（メタデータ） (2024-07-28T19:18:59Z)
Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。 GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文参考訳（メタデータ） (2023-12-19T06:06:30Z)
Zero Bubble Pipeline Parallelism [6.7021820542657045]
実験により,本手法は1F1Bのスループットを23%まで向上させることを示した。パイプライン並列化の真の可能性を活用する上で、我々の結果は大きな一歩だと信じています。
論文参考訳（メタデータ） (2023-11-30T10:40:34Z)
SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language Models [4.114555639014612]
本研究は,非構造的重み空間を用いて,事前訓練中にのみ重みのサブセットを訓練する利点を示す。我々は1.3Bパラメータ GPT-3 XL モデルに最大75%の間隔を誘導できることを示す。
論文参考訳（メタデータ） (2023-03-18T17:56:01Z)
Learning to Re-weight Examples with Optimal Transport for Imbalanced Classification [74.62203971625173]
不均衡データは、ディープラーニングに基づく分類モデルに課題をもたらす。不均衡なデータを扱うための最も広く使われているアプローチの1つは、再重み付けである。本稿では,分布の観点からの最適輸送(OT)に基づく新しい再重み付け手法を提案する。
論文参考訳（メタデータ） (2022-08-05T01:23:54Z)
Sample-Efficient Optimisation with Probabilistic Transformer Surrogates [66.98962321504085]
本稿では,ベイズ最適化における最先端確率変換器の適用可能性について検討する。トレーニング手順と損失定義から生じる2つの欠点を観察し、ブラックボックス最適化のプロキシとして直接デプロイすることを妨げる。 1)非一様分散点を前処理するBO調整トレーニング,2)予測性能を向上させるために最適な定常点をフィルタする新しい近似後正則整定器トレードオフ精度と入力感度を導入する。
論文参考訳（メタデータ） (2022-05-27T11:13:17Z)
Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文参考訳（メタデータ） (2022-05-11T17:10:41Z)
DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文参考訳（メタデータ） (2021-10-30T03:29:47Z)
Pipelined Backpropagation at Scale: Training Large Models without Batches [0.9580895202050946]
我々は,非同期パイプライン並列学習アルゴリズムである細粒度パイプラインバックプロパゲーションの小型バッチの利用を評価した。適切な正規化と小さなバッチサイズは、トレーニングにも役立ちます。
論文参考訳（メタデータ） (2020-03-25T22:26:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。