論文の概要: Data-Centric Elastic Pipeline Parallelism for Efficient Long-Context LLM Training
- arxiv url: http://arxiv.org/abs/2509.21275v1
- Date: Thu, 25 Sep 2025 15:01:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:13.011461
- Title: Data-Centric Elastic Pipeline Parallelism for Efficient Long-Context LLM Training
- Title(参考訳): リアルタイムLLM学習のためのデータ中心弾性パイプライン並列処理
- Authors: Shiju Wang, Yujie Wang, Ao Sun, Fangcheng Fu, Zijian Zhu, Bin Cui, Xu Han, Kaisheng Ma,
- Abstract要約: Elastic Pipeline Parallelism (EPP)は、トークンレベルのPPとバッチレベルのPPをオーケストレーションして、リソースとワークロードの不均一性に適応する。
InfiniPipeは最先端システムの1.69倍の高速化を実現している。
- 参考スコア(独自算出の注目度): 40.67232484556671
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long context training is crucial for LLM's context extension. Existing schemes, such as sequence parallelism, incur substantial communication overhead. Pipeline parallelism (PP) reduces this cost, but its effectiveness hinges on partitioning granularity. Batch-level PP dividing input samples exhibits high memory consumption in long-context scenario, whereas token-level PP splitting sequences into slices alleviates memory overhead but may incur hardware under-utilization. This trade-off motivates adaptively selecting PP granularity to match resource and workload characteristics. Moreover, sequence length distribution of the real-world dataset exhibits skewness, posing a challenge on PP's workload balance and efficient scheduling. Current static PP scheduling methods overlook the variance of sequence length, leading to suboptimal performance. In this paper, we propose Elastic Pipeline Parallelism (EPP) that orchestrates token-level PP and batch-level PP to adapt to resource and workload heterogeneity. We build InfiniPipe, a distributed training system that unleashes the potential of EPP via (1) a resource-aware and workload-balanced sequence processor that splits long sequences and packs short ones; and (2) a co-optimization methodology that jointly optimizes pipeline schedule and gradient checkpointing via a mechanism named stage-aware chunk-level adaptive checkpointing. Comprehensive experiments demonstrate that InfiniPipe achieves a 1.69x speedup over state-of-the-art systems.
- Abstract(参考訳): LLMのコンテキスト拡張には、長期のコンテキストトレーニングが不可欠である。
シーケンス並列化のような既存のスキームは、かなりの通信オーバーヘッドを発生させる。
パイプライン並列性(PP)は、このコストを削減するが、その効果は粒度のパーティショニングに影響を及ぼす。
バッチレベルのPP分割入力サンプルは、長いコンテキストシナリオで高いメモリ消費を示すが、トークンレベルのPP分割シーケンスは、メモリオーバーヘッドを軽減するが、ハードウェアの未利用を招きかねない。
このトレードオフは、資源およびワークロード特性に適合するPP粒度を適応的に選択する動機付けとなる。
さらに、実世界のデータセットのシーケンス長分布は歪みを示し、PPのワークロードバランスと効率的なスケジューリングに挑戦する。
現在の静的PPスケジューリング手法は、シーケンス長のばらつきを見落とし、最適以下の性能をもたらす。
本稿では,トークンレベルPPとバッチレベルPPをオーケストレーションし,リソースとワークロードの不均一性に適応するElastic Pipeline Parallelism(EPP)を提案する。
InfiniPipeは,(1)長いシーケンスを分割して短いシーケンスをパックするリソース・アウェア・ワークロード・バランス・シーケンス・プロセッサ,(2)ステージ・アウェア・チャンクレベル適応チェックポインティング(Stage-aware chunk-level Adaptive checkpointing)と呼ばれるメカニズムによってパイプラインのスケジュールと勾配チェックポインティングを共同で最適化する協調最適化手法によって,EPPのポテンシャルを解放する分散トレーニングシステムである。
総合的な実験により、InfiniPipeは最先端システムよりも1.69倍のスピードアップを達成した。
関連論文リスト
- HelixPipe: Efficient Distributed Training of Long Sequence Transformers with Attention Parallel Pipeline Parallelism [14.067070576474086]
トランスシークエンスの長さが大きくなるにつれて、既存のパイプライン並列処理は2次注意計算とかなりのメモリオーバーヘッドのため、最適以下の性能を実現する。
長周期変圧器訓練のための新しいパイプライン並列性であるHelixPipeを提案する。
これは、異なるパイプラインステージ間で異なるマイクロバッチのアテンション計算を並列にスケジュールし、パイプラインバブルを減少させる、アテンション並列パーティションを導入している。
メモリ使用量のバランスと、フラグメンテーションによる重複通信のバランスをとるために、2倍の第一段階のマイクロバッチスケジュールを採用している。
論文 参考訳(メタデータ) (2025-07-01T03:11:18Z) - StreamBP: Memory-Efficient Exact Backpropagation for Long Sequence Training of LLMs [8.960494482210919]
本稿では,StreamBP と呼ばれるメモリ効率の高いバックプロパゲーション手法を提案する。
StreamBPは、シーケンス次元に沿ったチェーンルールを階層的に線形分解する。
勾配チェックポイントと比較して、StreamBPはBPの最大シーケンス長を2.8-5.5倍にスケールアップする。
論文 参考訳(メタデータ) (2025-06-03T16:54:15Z) - TAH-QUANT: Effective Activation Quantization in Pipeline Parallelism over Slow Network [21.231881562816373]
本稿では,パイプライン並列性に特化した新しいアクティベーション量子化フレームワークTAH-Quant(Tile-wise Adaptive Hadamard Quantization)を紹介する。
提案手法は,精密制御のための細粒度タイルワイド量子化,最適ビット使用のためのエントロピー誘導トークンレベル適応ビット割り当て,およびピボット要素スワップを用いたアダマール変換を統合し,量子化出力を効果的に抑制する。
論文 参考訳(メタデータ) (2025-06-02T06:13:41Z) - Nesterov Method for Asynchronous Pipeline Parallel Optimization [59.79227116582264]
パイプライン並列処理における非同期最適化のために,Nesterov Accelerated Gradient (NAG) の変種を導入する。
具体的には、NAGのルックアヘッドステップを変更して、勾配の安定性を効果的に解決する。
我々は、勾配の固定遅延の存在下で、我々のアプローチがサブ線形速度で収束することを理論的に証明する。
論文 参考訳(メタデータ) (2025-05-02T08:23:29Z) - APB: Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs [81.5049387116454]
我々は、効率的な長文推論フレームワークであるAPBを紹介する。
APBはプリフィル速度を高めるためにマルチホスト近似アテンションを使用する。
APBはFlashAttn、RingAttn、StarAttnと比較して最大9.2x、4.2x、1.6xの速度を実現している。
論文 参考訳(メタデータ) (2025-02-17T17:59:56Z) - Scaling Deep Learning Training with MPMD Pipeline Parallelism [0.5817641705019472]
JaxPPは、柔軟なパイプライン並列性を備えた大規模ディープラーニングモデルのトレーニングを効率的にスケールアップするシステムである。
我々は,勾配蓄積のためのユーザ定義パイプラインスケジュールの実装を可能にする,シームレスなプログラミングモデルを導入する。
JaxPPは、パイプラインステージに対応するタスクをノードのクラスタ上に分散し、それら間の通信を自動的に推論する。
論文 参考訳(メタデータ) (2024-12-18T22:15:11Z) - MobiZO: Enabling Efficient LLM Fine-Tuning at the Edge via Inference Engines [28.18421624702502]
本稿では,大規模言語モデル(LLM)のための資源効率の高い微調整フレームワークであるMobiZOを紹介する。
MobiZOは、微調整精度を向上しつつ、実行時の大幅な高速化とメモリ節約を実現する。
MobiZOは、微調整精度を向上しつつ、実行時の大幅なスピードアップとメモリ節約を実現している。
論文 参考訳(メタデータ) (2024-09-23T20:14:09Z) - SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models [53.638791265113625]
空間保存型大規模言語モデルのための効率的な微調整法
コードはhttps://github.com/Lucky-Lance/SPP.comで公開される。
論文 参考訳(メタデータ) (2024-05-25T04:55:27Z) - Stochastic Optimization with Laggard Data Pipelines [65.20044914532221]
共通最適化手法の「データ抽出」拡張は同期手法よりも優れた性能を示すことを示す。
具体的には、ミニバッチによる凸最適化において、データエコーは、最適統計率を維持しながら収束率の曲率に支配される部分の高速化をもたらすことを示す。
論文 参考訳(メタデータ) (2020-10-26T14:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。