論文の概要: SlimPipe: Memory-Thrifty and Efficient Pipeline Parallelism for Long-Context LLM Training
- arxiv url: http://arxiv.org/abs/2504.14519v1
- Date: Sun, 20 Apr 2025 07:33:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 00:03:54.594495
- Title: SlimPipe: Memory-Thrifty and Efficient Pipeline Parallelism for Long-Context LLM Training
- Title(参考訳): SlimPipe:長期LLMトレーニングのためのメモリリフティと高効率パイプライン並列化
- Authors: Zhouyang Li, Yuliang Liu, Wei Zhang, Tailing Yuan, Bin Chen, Chengru Song, Di Zhang,
- Abstract要約: SlimPipeは、きめ細かいパイプライン並列化に対する新しいアプローチである。
蓄積した活性化をいくつかのマイクロバッチから1つに減らし、いくつかのスライスに分割する。
ほぼゼロのメモリオーバーヘッドを達成し、(2)パイプラインバブルを同時に最小化する。
- 参考スコア(独自算出の注目度): 21.93724007255793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pipeline Parallelism (PP) serves as a crucial technique for training Large Language Models (LLMs), owing to its capability to alleviate memory pressure from model states with relatively low communication overhead. However, in long-context scenarios, existing pipeline parallelism methods fail to address the substantial activation memory pressure, primarily due to the peak memory consumption resulting from the accumulation of activations across multiple microbatches. Moreover, these approaches inevitably introduce considerable pipeline bubbles, further hindering efficiency. To tackle these challenges, we propose SlimPipe, a novel approach to fine-grained pipeline parallelism that employs uniform sequence slicing coupled with one-forward-one-backward (1F1B) schedule. It reduces the accumulated activations from several microbatches to just one, which is split into several slices. Although the slices are evenly partitioned, the computation cost is not equal across slices due to causal attention. We develop a sophisticated workload redistribution technique to address this load imbalance. SlimPipe achieves (1) near-zero memory overhead and (2) minimal pipeline bubbles simultaneously. The effectiveness of SlimPipe has been proven by thorough testing with diverse model architectures, context window sizes, and SlimPipe-specific configurations. For example, on the Llama 70B model, compared to state-of-the-art methods, SlimPipe significantly boosts the Model FLOPs Utilization (MFU) to up to $1.57\times$ for a context length of 512K. More notably, for a context length of 2048K, it maintains over 45% utilization on 256 NVIDIA Hopper 80GB GPUs, while other approaches either suffer significant performance drops or fail entirely due to memory constraints.
- Abstract(参考訳): パイプライン並列性(PP)は、比較的通信オーバーヘッドの少ないモデル状態からメモリ圧力を緩和する能力のため、大規模言語モデル(LLM)をトレーニングするための重要なテクニックとして機能する。
しかし、長いコンテキストのシナリオでは、既存のパイプライン並列処理手法は、主に複数のマイクロバッチにまたがるアクティベーションの蓄積に起因するピークメモリ消費のために、重要なアクティベーションメモリ圧力に対処できない。
さらに、これらのアプローチは必然的に相当なパイプラインバブルを導入し、さらに効率を損なう。
これらの課題に対処するために,一方向逆向き(1F1B)スケジュールと一様シーケンススライシングを併用した,細粒度パイプライン並列化の新しい手法であるSlimPipeを提案する。
蓄積した活性化をいくつかのマイクロバッチから1つに減らし、いくつかのスライスに分割する。
スライスを均等に分割するが、因果的注意のため、スライス間で計算コストは等しくない。
我々は、この負荷不均衡に対処するために、洗練されたワークロード再分配技術を開発した。
SlimPipeは、(1)ほぼゼロのメモリオーバーヘッドと(2)最小のパイプラインバブルを同時に達成します。
SlimPipeの有効性は、さまざまなモデルアーキテクチャ、コンテキストウィンドウサイズ、SlimPipe固有の設定による徹底的なテストによって証明されている。
例えば、Llama 70Bモデルでは、最先端の手法と比較して、SlimPipeはModel FLOPs(MFU)を最大1.57\times$で512Kまで大幅に向上させる。
より注目すべきは、コンテキスト長2048Kの場合、256 NVIDIA Hopper 80GB GPUで45%以上利用しているのに対して、他のアプローチではメモリ制約のために大幅なパフォーマンス低下または完全に失敗していることだ。
関連論文リスト
- PipeOffload: Improving Scalability of Pipeline Parallelism with Memory Optimization [6.583624095434974]
パイプライン並列 (PP) は大規模言語モデル (LLM) の訓練に広く用いられている。
PPは、飛行中のマイクロバッチの数がPPの程度に増加するにつれて、高活性化メモリ消費によって制約されることが多い。
我々は、PPの未探索メモリオフロード戦略を活用することで、この問題に対処することに注力する。
論文 参考訳(メタデータ) (2025-03-03T09:11:06Z) - SkipPipe: Partial and Reordered Pipelining Framework for Training LLMs in Heterogeneous Networks [0.1638581561083717]
SkipPipeは、大規模言語モデルのエンドツーエンドトレーニング時間を短縮する部分的なパイプラインフレームワークである。
その結果、SkipPipeはフルパイプラインと比較してトレーニング時間を最大55%削減できることがわかった。
論文 参考訳(メタデータ) (2025-02-27T09:34:23Z) - BitPipe: Bidirectional Interleaved Pipeline Parallelism for Accelerating Large Models Training [5.7294516069851475]
BitPipeは、大規模なモデルのトレーニングを加速するための双方向のインターリーブパイプライン並列処理である。
最新の同期手法と比較して,BitPipeはGPTスタイルとBERTスタイルのモデルのトレーニングスループットを1.05x-1.28倍向上することを示す。
論文 参考訳(メタデータ) (2024-10-25T08:08:51Z) - Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Pipeline Parallelism with Controllable Memory [6.135123843073223]
既存のパイプラインスケジュールのほとんどすべてがメモリ非効率であることが示されています。
制御可能なアクティベーションメモリを備えた,メモリ効率の良いビルディングブロック群を紹介する。
1F1Bと同じアクティベーションメモリを維持しながら、ほぼゼロのパイプラインバブルを実現することができる。
論文 参考訳(メタデータ) (2024-05-24T08:54:36Z) - Zero Bubble Pipeline Parallelism [6.7021820542657045]
実験により,本手法は1F1Bのスループットを23%まで向上させることを示した。
パイプライン並列化の真の可能性を活用する上で、我々の結果は大きな一歩だと信じています。
論文 参考訳(メタデータ) (2023-11-30T10:40:34Z) - UniPT: Universal Parallel Tuning for Transfer Learning with Efficient
Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。
最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。
メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文 参考訳(メタデータ) (2023-08-28T05:38:43Z) - Pipeline MoE: A Flexible MoE Implementation with Pipeline Parallelism [91.9372563527801]
既存のMoEモデルは、膨大な内部ノードとノード間通信オーバーヘッドに悩まされる。
本稿では,新しいMoEアーキテクチャであるPipeline MoE(PPMoE)を提案する。
PPMoEは、テンソル並列を組み込んだ専門家の並列処理を構築し、通信集約型の全対一のディスパッチとコレクションを置き換える。
論文 参考訳(メタデータ) (2023-04-22T14:09:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。