論文の概要: PipeFisher: Efficient Training of Large Language Models Using Pipelining
and Fisher Information Matrices
- arxiv url: http://arxiv.org/abs/2211.14133v2
- Date: Sat, 13 May 2023 06:35:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 00:15:12.443003
- Title: PipeFisher: Efficient Training of Large Language Models Using Pipelining
and Fisher Information Matrices
- Title(参考訳): PipeFisher: パイプライニングと漁業情報行列を用いた大規模言語モデルの効率的な訓練
- Authors: Kazuki Osawa, Shigang Li, Torsten Hoefler
- Abstract要約: そこで本研究では,Fisher情報行列に基づく2次最適化手法であるK-FACをバブルに割り当てて収束を加速するPipeFisherを提案する。
BERTベースとラージモデルの第1フェーズ事前トレーニングでは、PipeFisherは1次オーダーのトレーニングと比較して、(シミュレーションされた)トレーニング時間を50-75%に短縮する。
- 参考スコア(独自算出の注目度): 21.963041375857117
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pipeline parallelism enables efficient training of Large Language Models
(LLMs) on large-scale distributed accelerator clusters. Yet, pipeline bubbles
during startup and tear-down reduce the utilization of accelerators. Although
efficient pipeline schemes with micro-batching and bidirectional pipelines have
been proposed to maximize utilization, a significant number of bubbles cannot
be filled using synchronous forward and backward passes. To address this
problem, we suggest that extra work be assigned to the bubbles to gain
auxiliary benefits in LLM training. As an example in this direction, we propose
PipeFisher, which assigns the work of K-FAC, a second-order optimization method
based on the Fisher information matrix, to the bubbles to accelerate
convergence. In Phase 1 pretraining of BERT-Base and -Large models, PipeFisher
reduces the (simulated) training time to 50-75% compared to training with a
first-order optimizer by greatly improving the accelerator utilization and
benefiting from the improved convergence by K-FAC.
- Abstract(参考訳): パイプライン並列処理により、大規模分散アクセラレータクラスタ上でのLarge Language Models(LLM)の効率的なトレーニングが可能になる。
しかし、起動時と分解時のパイプラインバブルはアクセラレータの利用を減らす。
マイクロバッチと双方向パイプラインを用いた効率的なパイプラインスキームが提案されているが、同期前方および後方通過では相当数の気泡が充填できない。
この問題に対処するため,llm訓練の補助的効果を得るために気泡に余分な作業を割り当てることを提案する。
この方向の例として,フィッシャー情報行列に基づく2次最適化手法であるK-FACをバブルに割り当てて収束を加速するPipeFisherを提案する。
BERTベースとラージモデルの第1相事前トレーニングでは、K-FACによる加速利用を大幅に改善し、改良された収束の恩恵を受けることにより、一階オプティマイザによるトレーニングに比べて(シミュレーションされた)トレーニング時間を50-75%に短縮する。
関連論文リスト
- BitPipe: Bidirectional Interleaved Pipeline Parallelism for Accelerating Large Models Training [5.7294516069851475]
BitPipeは、大規模なモデルのトレーニングを加速するための双方向のインターリーブパイプライン並列処理である。
最新の同期手法と比較して,BitPipeはGPTスタイルとBERTスタイルのモデルのトレーニングスループットを1.05x-1.28倍向上することを示す。
論文 参考訳(メタデータ) (2024-10-25T08:08:51Z) - PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - EE-LLM: Large-Scale Training and Inference of Early-Exit Large Language Models with 3D Parallelism [70.07661254213181]
大規模学習のためのフレームワークであるEE-LLMについて述べる。
Megatron-LMをベースとして、EE-LLMは様々なアルゴリズムの革新と早期終了に適したパフォーマンス最適化を実装している。
解析的および実証的研究により、EE-LLMは無視可能な計算オーバーヘッドで優れたトレーニング効率を達成することが示された。
論文 参考訳(メタデータ) (2023-12-08T09:31:50Z) - PipeOptim: Ensuring Effective 1F1B Schedule with Optimizer-Dependent
Weight Prediction [37.05698088730229]
1F1B (one forward, one backward) スケジュールを持つ非同期パイプラインモデル並列処理は、バブルオーバーヘッドをほとんど発生しない。
「1F1B」スケジュールは必然的に、異なるミニバッチのクロストレーニングによる重量不整合と重量安定の問題を引き起こす。
非同期パイプライン学習のための独立重み予測戦略(PipeOptim)を提案する。
論文 参考訳(メタデータ) (2023-12-01T01:52:38Z) - BatchGFN: Generative Flow Networks for Batch Active Learning [80.73649229919454]
BatchGFNは、生成フローネットワークを使用してバッチ報酬に比例したデータポイントのセットをサンプリングする、プールベースのアクティブラーニングのための新しいアプローチである。
提案手法は,おもちゃの回帰問題において,1点当たり1回の前方通過で推定時間に近距離最適効用バッチをサンプリングすることを可能にした。
論文 参考訳(メタデータ) (2023-06-26T20:41:36Z) - Prior-mean-assisted Bayesian optimization application on FRIB Front-End
tunning [61.78406085010957]
我々は、FRIBフロントエンドチューニングのためのBOの事前平均として、過去のデータに基づいてトレーニングされたニューラルネットワークモデルを利用する。
本稿では、FRIBフロントエンドチューニングのためのBOの事前平均として、過去のデータに基づいてトレーニングされたニューラルネットワークモデルを利用する。
論文 参考訳(メタデータ) (2022-11-11T18:34:15Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z) - Pipelined Backpropagation at Scale: Training Large Models without
Batches [0.9580895202050946]
我々は,非同期パイプライン並列学習アルゴリズムである細粒度パイプラインバックプロパゲーションの小型バッチの利用を評価した。
適切な正規化と小さなバッチサイズは、トレーニングにも役立ちます。
論文 参考訳(メタデータ) (2020-03-25T22:26:28Z) - Pipelined Training with Stale Weights of Deep Convolutional Neural
Networks [0.1921787217122713]
パイプライン化バックプロパゲーション方式の統計的効率と性能に及ぼす固定重みの影響について検討する。
パイプライニングがネットワークの初期の層に限られている場合、固定重み付きトレーニングが収束し、同じ精度のモデルが得られることを示す。
本稿では,パイプライン型と非パイプライン型を併用したハイブリッドスキームを提案する。
論文 参考訳(メタデータ) (2019-12-29T15:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。