論文の概要: AMDP: Asynchronous Multi-Directional Pipeline Parallelism for Large-Scale Models Training
- arxiv url: http://arxiv.org/abs/2605.29664v1
- Date: Thu, 28 May 2026 09:25:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.136475
- Title: AMDP: Asynchronous Multi-Directional Pipeline Parallelism for Large-Scale Models Training
- Title(参考訳): AMDP:大規模モデルトレーニングのための非同期多方向パイプライン並列処理
- Authors: Ling Chen, Houming Wu, Wenjie Yu,
- Abstract要約: AMDPは、バックプロパゲーションの前に、各パイプラインの最初のステージを少なくとも2つのミニバッチで処理するように制限する。
GPTモデルとBERTモデルによる実験により、AMDPは収束を保ちながらトレーニングを著しく加速することが示された。
- 参考スコア(独自算出の注目度): 8.956450951670979
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pipeline parallelism is essential for large-scale model training, but existing asynchronous approaches often degrade convergence due to parameter mismatch between forward and backward passes. We propose Asynchronous Multi-Directional Pipeline parallelism (AMDP) to mitigate this issue while sustaining high utilization. AMDP limits the first stage of each pipeline to process at most two minibatches before backpropagation, bounding the number of parameter updates between forward and backward passes. To alleviate the resulting pipeline bubbles, AMDP launches multiple concurrent pipelines and adapts their number according to pipeline depth. In addition, AMDP accumulates gradients across minibatches and applies them in a single update, ensuring that only a bounded number of minibatches experience parameter mismatch, limited to within one optimization step. Experiments on GPT- and BERT-style models demonstrate that AMDP significantly accelerates training while preserving convergence.
- Abstract(参考訳): パイプライン並列性は大規模なモデルトレーニングには不可欠だが、既存の非同期アプローチでは、前方パスと後方パスのパラメータミスマッチによって収束が低下することが多い。
高い利用率を維持しながらこの問題を軽減するために,非同期多方向パイプライン並列性(AMDP)を提案する。
AMDPは各パイプラインの第1段階をバックプロパゲーションの前に2つのミニバッチで処理し、前方と後方のパス間のパラメータ更新数を制限している。
結果のパイプラインバブルを軽減するため、AMDPは複数の並列パイプラインを起動し、パイプライン深さに応じてその数を適応する。
さらに、AMDPはミニバッチ間の勾配を蓄積し、それを1回の更新で適用することで、1つの最適化ステップ以内に制限される、制限付きのミニバッチ体験パラメータミスマッチのみを保証します。
GPTモデルとBERTモデルによる実験により、AMDPは収束を保ちながらトレーニングを著しく加速することが示された。
関連論文リスト
- PARM: Pipeline-Adapted Reward Model [60.769414637325326]
リワードモデル(RM)は、大規模言語モデル(LLM)を人間の好みと整合させることの中心であり、高度な復号化戦略を推進している。
これまでの作業はシングルステップ生成に重点を置いていたが、現実のアプリケーションはますますマルチステージパイプラインを採用するようになっている。
我々は、最適化のためのコード生成を通じてこれを調査し、報酬モデルを定式化とソリューション段階の両方に統合するパイプラインを構築する。
論文 参考訳(メタデータ) (2026-04-20T14:29:08Z) - TimelyFreeze: Adaptive Parameter Freezing Mechanism for Pipeline Parallelism [9.595296799577499]
本稿では,パイプラインスケジュールを有向非巡回グラフとしてモデル化し,最適凍結比を求める線形プログラムを解くTimelyFreezeを提案する。
実験の結果、TimelyFreezeはLLaMA-8Bで最大40%のトレーニングスループットを同等の精度で達成している。
論文 参考訳(メタデータ) (2026-02-05T15:24:11Z) - AsyncMesh: Fully Asynchronous Optimization for Data and Pipeline Parallelism [54.8494905524997]
両方の並列処理軸をまたいだ非同期更新を導入し、コロケーション要求を緩和します。
スパース平均化と非同期更新の両方に対して収束保証を提供します。
大規模言語モデルを用いた実験により,本手法が完全同期ベースラインの性能と一致することを示した。
論文 参考訳(メタデータ) (2026-01-30T01:24:47Z) - AdaPtis: Reducing Pipeline Bubbles with Adaptive Pipeline Parallelism on Heterogeneous Models [59.7059443712562]
AdaPtisは、適応パイプライン並列性をサポートする大規模言語モデル(LLM)のトレーニングシステムである。
大規模な実験により、AdaPtisはMegatron-LM I-1F1Bよりも平均1.42倍(最大2.14倍)のスピードアップを達成した。
論文 参考訳(メタデータ) (2025-09-28T08:05:13Z) - HelixPipe: Efficient Distributed Training of Long Sequence Transformers with Attention Parallel Pipeline Parallelism [14.067070576474086]
トランスシークエンスの長さが大きくなるにつれて、既存のパイプライン並列処理は2次注意計算とかなりのメモリオーバーヘッドのため、最適以下の性能を実現する。
長周期変圧器訓練のための新しいパイプライン並列性であるHelixPipeを提案する。
これは、異なるパイプラインステージ間で異なるマイクロバッチのアテンション計算を並列にスケジュールし、パイプラインバブルを減少させる、アテンション並列パーティションを導入している。
メモリ使用量のバランスと、フラグメンテーションによる重複通信のバランスをとるために、2倍の第一段階のマイクロバッチスケジュールを採用している。
論文 参考訳(メタデータ) (2025-07-01T03:11:18Z) - Nesterov Method for Asynchronous Pipeline Parallel Optimization [59.79227116582264]
パイプライン並列処理における非同期最適化のために,Nesterov Accelerated Gradient (NAG) の変種を導入する。
具体的には、NAGのルックアヘッドステップを変更して、勾配の安定性を効果的に解決する。
我々は、勾配の固定遅延の存在下で、我々のアプローチがサブ線形速度で収束することを理論的に証明する。
論文 参考訳(メタデータ) (2025-05-02T08:23:29Z) - Self-Refining Diffusion Samplers: Enabling Parallelization via Parareal Iterations [53.180374639531145]
自己精製拡散サンプリング(SRDS)は、サンプル品質を維持し、追加の並列計算コストでレイテンシを向上させることができる。
微分方程式の並列時間積分法であるPararealアルゴリズムから着想を得た。
論文 参考訳(メタデータ) (2024-12-11T11:08:09Z) - BitPipe: Bidirectional Interleaved Pipeline Parallelism for Accelerating Large Models Training [5.7294516069851475]
BitPipeは、大規模なモデルのトレーニングを加速するための双方向のインターリーブパイプライン並列処理である。
最新の同期手法と比較して,BitPipeはGPTスタイルとBERTスタイルのモデルのトレーニングスループットを1.05x-1.28倍向上することを示す。
論文 参考訳(メタデータ) (2024-10-25T08:08:51Z) - Stochastic Optimization with Laggard Data Pipelines [65.20044914532221]
共通最適化手法の「データ抽出」拡張は同期手法よりも優れた性能を示すことを示す。
具体的には、ミニバッチによる凸最適化において、データエコーは、最適統計率を維持しながら収束率の曲率に支配される部分の高速化をもたらすことを示す。
論文 参考訳(メタデータ) (2020-10-26T14:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。