Fugu-MT 論文翻訳(概要): Pipe-BD: Pipelined Parallel Blockwise Distillation

論文の概要: Pipe-BD: Pipelined Parallel Blockwise Distillation

arxiv url: http://arxiv.org/abs/2301.12443v1
Date: Sun, 29 Jan 2023 13:38:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-31 17:06:28.219836
Title: Pipe-BD: Pipelined Parallel Blockwise Distillation
Title（参考訳）: パイプ-BD:パイプライン並列ブロックワイド蒸留
Authors: Hongsun Jang, Jaewon Jung, Jaeyong Song, Joonsang Yu, Youngsok Kim, and Jinho Lee
Abstract要約: ブロックワイド蒸留のための新しい並列化法であるパイプ-BDを提案する。パイプ-BDはパイプライン並列性をブロックワイド蒸留に積極的に利用する。 PyTorch 上で Pipe-BD を実装し,複数のシナリオやモデル,データセットに対して Pipe-BD が有効であることを示す実験を行った。
参考スコア（独自算出の注目度）: 7.367308544773381
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Training large deep neural network models is highly challenging due to their tremendous computational and memory requirements. Blockwise distillation provides one promising method towards faster convergence by splitting a large model into multiple smaller models. In state-of-the-art blockwise distillation methods, training is performed block-by-block in a data-parallel manner using multiple GPUs. To produce inputs for the student blocks, the teacher model is executed from the beginning until the current block under training. However, this results in a high overhead of redundant teacher execution, low GPU utilization, and extra data loading. To address these problems, we propose Pipe-BD, a novel parallelization method for blockwise distillation. Pipe-BD aggressively utilizes pipeline parallelism for blockwise distillation, eliminating redundant teacher block execution and increasing per-device batch size for better resource utilization. We also extend to hybrid parallelism for efficient workload balancing. As a result, Pipe-BD achieves significant acceleration without modifying the mathematical formulation of blockwise distillation. We implement Pipe-BD on PyTorch, and experiments reveal that Pipe-BD is effective on multiple scenarios, models, and datasets.
Abstract（参考訳）: 大きなディープニューラルネットワークモデルのトレーニングは、その膨大な計算とメモリ要求のため、非常に難しい。ブロックワイズ蒸留は、大きなモデルを複数の小さなモデルに分割することで、より高速な収束を実現するための1つの有望な方法を提供する。最先端のブロックワイド蒸留法では、複数のGPUを用いてデータ並列方式で訓練を行う。学習ブロックの入力を生成するために、教師モデルが初期から訓練中の現在のブロックまで実行される。しかし、この結果、教師の冗長な実行、gpu使用率の低下、データ読み込みの余分なオーバーヘッドが高まる。そこで本研究では,ブロックワイズ蒸留の並列化法である pipe-bd を提案する。 pipe-bdは、ブロック回りの蒸留にパイプライン並列処理を積極的に利用し、冗長な教師ブロックの実行をなくし、リソース利用を改善するためにデバイス単位のバッチサイズを増加させる。効率的なワークロードバランシングのためのハイブリッド並列性にも拡張しています。その結果、パイプ-BDはブロックワイズ蒸留の数学的定式化を変えることなく大きな加速を達成する。 PyTorch 上で Pipe-BD を実装し,複数のシナリオやモデル,データセットに対して Pipe-BD が有効であることを示す実験を行った。

関連論文リスト

HelixPipe: Efficient Distributed Training of Long Sequence Transformers with Attention Parallel Pipeline Parallelism [14.067070576474086]
トランスシークエンスの長さが大きくなるにつれて、既存のパイプライン並列処理は2次注意計算とかなりのメモリオーバーヘッドのため、最適以下の性能を実現する。長周期変圧器訓練のための新しいパイプライン並列性であるHelixPipeを提案する。これは、異なるパイプラインステージ間で異なるマイクロバッチのアテンション計算を並列にスケジュールし、パイプラインバブルを減少させる、アテンション並列パーティションを導入している。メモリ使用量のバランスと、フラグメンテーションによる重複通信のバランスをとるために、2倍の第一段階のマイクロバッチスケジュールを採用している。
論文参考訳（メタデータ） (2025-07-01T03:11:18Z)
SlimPipe: Memory-Thrifty and Efficient Pipeline Parallelism for Long-Context LLM Training [21.93724007255793]
SlimPipeは、きめ細かいパイプライン並列化に対する新しいアプローチである。蓄積した活性化をいくつかのマイクロバッチから1つに減らし、いくつかのスライスに分割する。ほぼゼロのメモリオーバーヘッドを達成し、(2)パイプラインバブルを同時に最小化する。
論文参考訳（メタデータ） (2025-04-20T07:33:33Z)
BitPipe: Bidirectional Interleaved Pipeline Parallelism for Accelerating Large Models Training [5.7294516069851475]
BitPipeは、大規模なモデルのトレーニングを加速するための双方向のインターリーブパイプライン並列処理である。最新の同期手法と比較して,BitPipeはGPTスタイルとBERTスタイルのモデルのトレーニングスループットを1.05x-1.28倍向上することを示す。
論文参考訳（メタデータ） (2024-10-25T08:08:51Z)
2BP: 2-Stage Backpropagation [0.0]
本稿では2段階バックプロパゲーション(2BP)を紹介する。後方伝播ステップを2つの別々のステージに分割することで、アイドル計算時間を短縮できる。 2BPでは従来の手法に比べてスループットが1.70倍向上した。
論文参考訳（メタデータ） (2024-05-28T11:02:01Z)
Zero Bubble Pipeline Parallelism [6.7021820542657045]
実験により,本手法は1F1Bのスループットを23%まで向上させることを示した。パイプライン並列化の真の可能性を活用する上で、我々の結果は大きな一歩だと信じています。
論文参考訳（メタデータ） (2023-11-30T10:40:34Z)
BOOT: Data-free Distillation of Denoising Diffusion Models with Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2023-06-08T20:30:55Z)
PARTIME: Scalable and Parallel Processing Over Time with Deep Neural Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。 PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文参考訳（メタデータ） (2022-10-17T14:49:14Z)
Hydra: A System for Large Multi-Model Deep Learning [3.571623412954477]
本稿では,トランスフォーマーやCNNといったモデルを対象として,DRAMとGPUメモリ間のレイヤ群を移動させる手法である'model spilling'を提案する。次に,マルチモデルトレーニングワークロードの効率を上げるために,こぼれを利用した新しいテクニックのセットを提案する。実際のベンチマークワークロードによる実験によると、HYDRAは通常のモデル並列処理よりも7倍高速で、パイプライン並列処理のための最先端の産業ツールよりも50%高速である。
論文参考訳（メタデータ） (2021-10-16T18:13:57Z)
TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。 TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文参考訳（メタデータ） (2021-02-16T07:34:32Z)
Scaling Distributed Deep Learning Workloads beyond the Memory Capacity with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文参考訳（メタデータ） (2020-08-26T07:24:34Z)
Pipelined Backpropagation at Scale: Training Large Models without Batches [0.9580895202050946]
我々は,非同期パイプライン並列学習アルゴリズムである細粒度パイプラインバックプロパゲーションの小型バッチの利用を評価した。適切な正規化と小さなバッチサイズは、トレーニングにも役立ちます。
論文参考訳（メタデータ） (2020-03-25T22:26:28Z)
Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文参考訳（メタデータ） (2020-03-10T05:52:15Z)
Accelerating Feedforward Computation via Parallel Nonlinear Equation Solving [106.63673243937492]
ニューラルネットワークの評価や自己回帰モデルからのサンプリングなどのフィードフォワード計算は、機械学習においてユビキタスである。本稿では,非線形方程式の解法としてフィードフォワード計算の課題を定式化し,ジャコビ・ガウス・シーデル固定点法とハイブリッド法を用いて解を求める。提案手法は, 並列化可能な繰り返し回数の削減(あるいは等値化)により, 元のフィードフォワード計算と全く同じ値が与えられることを保証し, 十分な並列化計算能力を付与する。
論文参考訳（メタデータ） (2020-02-10T10:11:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。