Fugu-MT 論文翻訳(概要): SkipPipe: Partial and Reordered Pipelining Framework for Training LLMs in Heterogeneous Networks

論文の概要: SkipPipe: Partial and Reordered Pipelining Framework for Training LLMs in Heterogeneous Networks

arxiv url: http://arxiv.org/abs/2502.19913v1
Date: Thu, 27 Feb 2025 09:34:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-28 15:15:46.866983
Title: SkipPipe: Partial and Reordered Pipelining Framework for Training LLMs in Heterogeneous Networks
Title（参考訳）: SkipPipe: 異種ネットワークにおけるLLM学習のための部分および順序付きパイプライニングフレームワーク
Authors: Nikolay Blagoev, Lydia Yiyu Chen, Oğuzhan Ersoy,
Abstract要約: SkipPipeは、大規模言語モデルのエンドツーエンドトレーニング時間を短縮する部分的なパイプラインフレームワークである。その結果、SkipPipeはフルパイプラインと比較してトレーニング時間を最大55%削減できることがわかった。
参考スコア（独自算出の注目度）: 0.1638581561083717
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Data and pipeline parallelism are ubiquitous for training of Large Language Models (LLM) on distributed nodes. Driven by the need for cost-effective training, recent work explores efficient communication arrangement for end to end training. Motivated by LLM's resistance to layer skipping and layer reordering, in this paper, we explore stage (several consecutive layers) skipping in pipeline training, and challenge the conventional practice of sequential pipeline execution. We derive convergence and throughput constraints (guidelines) for pipelining with skipping and swapping pipeline stages. Based on these constraints, we propose SkipPipe, the first partial pipeline framework to reduce the end-to-end training time for LLMs while preserving the convergence. The core of SkipPipe is a path scheduling algorithm that optimizes the paths for individual microbatches and reduces idle time (due to microbatch collisions) on the distributed nodes, complying with the given stage skipping ratio. We extensively evaluate SkipPipe on LLaMa models from 500M to 8B parameters on up to 20 nodes. Our results show that SkipPipe reduces training iteration time by up to $55\%$ compared to full pipeline. Our partial pipeline training also improves resistance to layer omission during inference, experiencing a drop in perplexity of only $7\%$ when running only half the model. Our code is available at https://github.com/gensyn-ai/skippipe.
Abstract（参考訳）: データとパイプラインの並列処理は、分散ノード上でのLarge Language Models(LLM)のトレーニングにはユビキタスである。コスト効率のよいトレーニングの必要性によって、最近の研究は、エンドツーエンドのトレーニングのための効率的なコミュニケーションアレンジメントを探求している。本稿では,LLMの層スキップ抵抗と層再配置に感化されて,パイプライン訓練におけるステージ(連続層)スキップを探索し,シーケンシャルパイプライン実行の従来の実践に挑戦する。パイプラインステージのスキップとスワップによるパイプラインライニングのための収束とスループットの制約(ガイドライン)を導出します。これらの制約に基づいて,コンバージェンスを保ちながらLLMのエンドツーエンドトレーニング時間を短縮する,最初の部分的パイプラインフレームワークであるSkipPipeを提案する。 SkipPipeのコアは、個々のマイクロバッチの経路を最適化し、所定のステージスキップ比に従って、分散ノード上のアイドル時間(マイクロバッチの衝突による)を削減するパススケジューリングアルゴリズムである。我々はLLaMaモデル上でのSkipPipeを最大20ノードで500Mから8Bパラメータに広範囲に評価した。私たちの結果は、SkipPipeがフルパイプラインと比較してトレーニングのイテレーション時間を最大5,5\%削減していることを示している。部分的なパイプライントレーニングでは、推論中の層切断に対する耐性も向上し、モデルの半分しか実行しない場合のパープレキシティがわずか7\%の低下を経験しています。私たちのコードはhttps://github.com/gensyn-ai/skippipe.comで公開されています。

関連論文リスト

HelixPipe: Efficient Distributed Training of Long Sequence Transformers with Attention Parallel Pipeline Parallelism [14.067070576474086]
トランスシークエンスの長さが大きくなるにつれて、既存のパイプライン並列処理は2次注意計算とかなりのメモリオーバーヘッドのため、最適以下の性能を実現する。長周期変圧器訓練のための新しいパイプライン並列性であるHelixPipeを提案する。これは、異なるパイプラインステージ間で異なるマイクロバッチのアテンション計算を並列にスケジュールし、パイプラインバブルを減少させる、アテンション並列パーティションを導入している。メモリ使用量のバランスと、フラグメンテーションによる重複通信のバランスをとるために、2倍の第一段階のマイクロバッチスケジュールを採用している。
論文参考訳（メタデータ） (2025-07-01T03:11:18Z)
Scaling Up Liquid-Resistance Liquid-Capacitance Networks for Efficient Sequence Modeling [53.925413758281096]
LrcSSMは$textitnonlinear$recurrentモデルで、現在の線形状態空間層と同じくらい高速に長いシーケンスを処理する。 LrcSSMは、Liquid-S4やMambaのような他の入力変化系が提供しないことを保証する形式的な勾配安定性を提供する。本稿では,LrcSSMがLRU,S5,Mambaより優れていることを示す。
論文参考訳（メタデータ） (2025-05-27T20:02:59Z)
Training Long-Context LLMs Efficiently via Chunk-wise Optimization [60.05884946552877]
textitSequential Chunk-wise Optimization (SeCO) は、長い入力を管理可能なチャンクに分割するメモリ効率の訓練パラダイムである。 textitSparse Chunk-wise Optimization (SpaCO)を導入し、特定のチャンクへの勾配を選択的に伝播することで計算オーバーヘッドを削減する。 SpaCOは、コンテキスト長からバックプロパゲーションの計算コストを分離し、シーケンスが長くなるにつれて、トレーニング時間が徐々に推論時間に収束することを可能にする。
論文参考訳（メタデータ） (2025-05-22T14:11:34Z)
Nesterov Method for Asynchronous Pipeline Parallel Optimization [59.79227116582264]
パイプライン並列処理における非同期最適化のために,Nesterov Accelerated Gradient (NAG) の変種を導入する。具体的には、NAGのルックアヘッドステップを変更して、勾配の安定性を効果的に解決する。我々は、勾配の固定遅延の存在下で、我々のアプローチがサブ線形速度で収束することを理論的に証明する。
論文参考訳（メタデータ） (2025-05-02T08:23:29Z)
SlimPipe: Memory-Thrifty and Efficient Pipeline Parallelism for Long-Context LLM Training [21.93724007255793]
SlimPipeは、きめ細かいパイプライン並列化に対する新しいアプローチである。蓄積した活性化をいくつかのマイクロバッチから1つに減らし、いくつかのスライスに分割する。ほぼゼロのメモリオーバーヘッドを達成し、(2)パイプラインバブルを同時に最小化する。
論文参考訳（メタデータ） (2025-04-20T07:33:33Z)
Towards Efficient Automatic Self-Pruning of Large Language Models [55.90119819642064]
トレーニング後の構造化プルーニングは、トレーニングを必要とせずに大規模言語モデルを熟成する有望なソリューションである。この問題を緩和する鍵は、各レイヤのプルーニング率を正確に決定することにある、と我々は主張する。我々は、レイヤワイドプルーニングレートを効率的に検索するLLMのためのエンドツーエンドの自動自動プルーニングフレームワークである$textbfSelf-Prunerを紹介した。
論文参考訳（メタデータ） (2025-02-20T09:59:50Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
BitPipe: Bidirectional Interleaved Pipeline Parallelism for Accelerating Large Models Training [5.7294516069851475]
BitPipeは、大規模なモデルのトレーニングを加速するための双方向のインターリーブパイプライン並列処理である。最新の同期手法と比較して,BitPipeはGPTスタイルとBERTスタイルのモデルのトレーニングスループットを1.05x-1.28倍向上することを示す。
論文参考訳（メタデータ） (2024-10-25T08:08:51Z)
Mini-Sequence Transformer: Optimizing Intermediate Memory for Long Sequences Training [78.93900796545523]
ミニシーケンス変換器(Mini-Sequence Transformer, MsT)は、非常に長いシーケンスを持つ高速かつ高精度なLLMトレーニング手法である。 MsTは入力シーケンスを分割し、中間メモリ使用量を減らすためにミニシーケンスを反復的に処理する。 huggingfaceライブラリと統合され、MsTはQwen、Mistral、Gemma-2の最大コンテキスト長を12-24倍に拡張した。
論文参考訳（メタデータ） (2024-07-22T01:52:30Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
ReCycle: Resilient Training of Large DNNs using Pipeline Adaptation [2.0181279529015925]
ReCycleは、障害発生時の効率的なトレーニング用に設計されたシステムである。分散トレーニングシステムに固有の機能的冗長性を活用する。複数の障害で高いトレーニングスループットを実現していることを示す。
論文参考訳（メタデータ） (2024-05-22T21:35:56Z)
InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory [93.20588235940453]
本稿では,トレーニング不要なメモリベースのInfLLMを提案する。 InfLLMは、リモートコンテキストを追加のメモリユニットに格納し、トークン関連ユニットを注目するために効率的なメカニズムを使用する。シーケンス長が$1,024$Kにスケールしても、InfLLMは依然として、長距離依存関係を効果的にキャプチャする。
論文参考訳（メタデータ） (2024-02-07T06:50:42Z)
Zero Bubble Pipeline Parallelism [6.7021820542657045]
実験により,本手法は1F1Bのスループットを23%まで向上させることを示した。パイプライン並列化の真の可能性を活用する上で、我々の結果は大きな一歩だと信じています。
論文参考訳（メタデータ） (2023-11-30T10:40:34Z)
Instant Complexity Reduction in CNNs using Locality-Sensitive Hashing [50.79602839359522]
本稿では,パラメータフリーでデータフリーなモジュールであるHASTE(Hashing for Tractable Efficiency)を提案する。局所性感応ハッシュ (LSH) を用いることで, 精度を犠牲にすることなく, 遅延特徴写像を劇的に圧縮することができる。特に、HASTEモジュール用のCIFAR-10上のResNet34で畳み込みモジュールを切り替えるだけで、FLOPの46.72%を即座に落とすことができる。
論文参考訳（メタデータ） (2023-09-29T13:09:40Z)
LST: Ladder Side-Tuning for Parameter and Memory Efficient Transfer Learning [82.93130407930762]
大規模な事前訓練されたモデルのパラメータセット全体を更新するのはコストがかかる。 PETL技術は、トレーニング済みのバックボーンネットワーク内のパラメータの小さなサブセットを更新して、新しいタスクを実行できる。本稿では,学習用メモリの必要量を大幅に削減するPETL技術であるLadder Side-Tuning (LST)を提案する。
論文参考訳（メタデータ） (2022-06-13T23:51:56Z)
BaPipe: Exploration of Balanced Pipeline Parallelism for DNN Training [9.551339069298011]
BaPipeは分散ディープラーニングのためのパイプライン並列化トレーニングフレームワークである。パイプライン並列性トレーニングメソッドと分散トレーニングのためのバランスの取れたパーティション戦略を自動で探索する。 BaPipeは、様々なプラットフォームで最大3.2倍のスピードアップと4倍のメモリ削減を提供する。
論文参考訳（メタデータ） (2020-12-23T08:57:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。