Fugu-MT 論文翻訳(概要): PipeOffload: Improving Scalability of Pipeline Parallelism with Memory Optimization

論文の概要: PipeOffload: Improving Scalability of Pipeline Parallelism with Memory Optimization

arxiv url: http://arxiv.org/abs/2503.01328v1
Date: Mon, 03 Mar 2025 09:11:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 18:50:37.911608
Title: PipeOffload: Improving Scalability of Pipeline Parallelism with Memory Optimization
Title（参考訳）: PipeOffload: メモリ最適化によるパイプライン並列処理のスケーラビリティ向上
Authors: Xinyi Wan, Penghui Qi, Guangxing Huang, Jialin Li, Min Lin,
Abstract要約: パイプライン並列 (PP) は大規模言語モデル (LLM) の訓練に広く用いられている。 PPは、飛行中のマイクロバッチの数がPPの程度に増加するにつれて、高活性化メモリ消費によって制約されることが多い。我々は、PPの未探索メモリオフロード戦略を活用することで、この問題に対処することに注力する。
参考スコア（独自算出の注目度）: 6.583624095434974
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pipeline parallelism (PP) is widely used for training large language models (LLMs), yet its scalability is often constrained by high activation memory consumption as the number of in-flight microbatches grows with the degree of PP. In this paper, we focus on addressing this challenge by leveraging the under-explored memory offload strategy in PP. With empirical study, we discover that in the majority of standard configurations, at least half, and potentially all, of the activations can be offloaded with negligible overhead. In the cases where full overload is not possible, we introduce a novel selective offload strategy that decreases peak activation memory in a better-than-linear manner. Furthermore, we integrate memory offload with other techniques to jointly consider overall throughput and memory limitation. Our experiments proves that the per-device activation memory effectively reduces with the total number of stages, making PP a stronger alternative than TP, offering up to a 19\% acceleration with even lower memory consumption. The implementation is open-sourced at \href{https://github.com/sail-sg/zero-bubble-pipeline-parallelism}{this url}.
Abstract（参考訳）: パイプライン並列化(PP)は大規模言語モデル(LLM)の訓練に広く用いられているが、飛行中のマイクロバッチの数がPPの程度に増加するにつれて、そのスケーラビリティは高活性化メモリ消費によって制限されることが多い。本稿では,PP のメモリオフロード戦略を活用することで,この問題に対処することに注力する。実証的研究により、標準構成の大部分、少なくとも半分、潜在的に全てにおいて、アクティベーションは無視できないオーバーヘッドでオフロードできることが判明した。フルオーバーロードが不可能な場合には、ピークアクティベーションメモリを線形的に減少させる新しい選択オフロード戦略を導入する。さらに、メモリオフロードを他の手法と統合し、全体的なスループットとメモリ制限を共同で検討する。実験の結果,デバイス毎のアクティベーションメモリは,TPよりもPPの方が強力な代替手段となり,さらにメモリ消費が減少し,最大19 % の高速化が期待できることがわかった。実装は \href{https://github.com/sail-sg/zero-bubble-pipeline-parallelism}{this url} でオープンソース化されている。

関連論文リスト

OptPipe: Memory- and Scheduling-Optimized Pipeline Parallelism for LLM Training [13.814101909348183]
Pipeline(PP)は、大規模言語モデル(LLM)トレーニングを複数のデバイスに拡張する標準的なテクニックになっている。本研究では,パイプラインスケジューリング問題について,原理的最適化の観点から再検討する。本稿では, メモリ容量, アクティベーション再利用, パイプラインバブル最小化を両立させる制約付き最適化問題としてスケジューリングを定式化する。
論文参考訳（メタデータ） (2025-10-06T01:06:33Z)
Memory-Efficient Fine-Tuning via Low-Rank Activation Compression [16.44044624606008]
Low-Rank Activation Compression (LoRAct) はメモリ効率の良い微調整方式である。 LoRActは広く採用されているLoRA法と比較して、アクティベーションメモリを約80%削減する。
論文参考訳（メタデータ） (2025-09-27T19:48:32Z)
StreamBP: Memory-Efficient Exact Backpropagation for Long Sequence Training of LLMs [8.960494482210919]
本稿では,StreamBP と呼ばれるメモリ効率の高いバックプロパゲーション手法を提案する。 StreamBPは、シーケンス次元に沿ったチェーンルールを階層的に線形分解する。勾配チェックポイントと比較して、StreamBPはBPの最大シーケンス長を2.8-5.5倍にスケールアップする。
論文参考訳（メタデータ） (2025-06-03T16:54:15Z)
SlimPipe: Memory-Thrifty and Efficient Pipeline Parallelism for Long-Context LLM Training [21.93724007255793]
SlimPipeは、きめ細かいパイプライン並列化に対する新しいアプローチである。蓄積した活性化をいくつかのマイクロバッチから1つに減らし、いくつかのスライスに分割する。ほぼゼロのメモリオーバーヘッドを達成し、(2)パイプラインバブルを同時に最小化する。
論文参考訳（メタデータ） (2025-04-20T07:33:33Z)
Sparse Gradient Compression for Fine-Tuning Large Language Models [58.44973963468691]
ダウンストリームタスクのための微調整された大型言語モデル(LLM)は、広く利用されていることと、オープンソースモデルの利用が増加しているために、ますます重要になっている。微調整に伴う高メモリコストは、特にモデルのサイズが大きくなるにつれて大きな課題である。これらの制約に対処するためにスパース圧縮勾配(SGC)を提案する。
論文参考訳（メタデータ） (2025-02-01T04:18:28Z)
Memory Layers at Scale [67.00854080570979]
この研究はメモリ層を概念実証以上のものにし、現代の規模でその有用性を証明している。ダウンストリームタスクでは、改善されたメモリ層で強化された言語モデルは、予算の2倍以上の高密度モデルよりも優れており、計算とパラメータの両方にマッチする場合の熟練モデルの混合も優れている。最大128Bのメモリパラメータを持つスケーリング法則を1兆トークンまで事前訓練し,最大8Bパラメータを持つベースモデルと比較した,完全な並列化可能なメモリレイヤの実装を提供する。
論文参考訳（メタデータ） (2024-12-12T23:56:57Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
Reducing Fine-Tuning Memory Overhead by Approximate and Memory-Sharing Backpropagation [29.139579820699495]
この研究は、活性化関数と層正規化の観点から微調整におけるメモリオーバーヘッドを低減することを目的としている。提案手法をバックプロパゲーショントレーニングに適用し,GELUおよびSiLU活性化関数のメモリ効率の代替を導出する。さらに、メモリ共有バックプロパゲーション戦略を導入し、アクティベーションメモリを2つの隣接層で共有できるようにする。
論文参考訳（メタデータ） (2024-06-24T03:09:15Z)
Pipeline Parallelism with Controllable Memory [6.135123843073223]
既存のパイプラインスケジュールのほとんどすべてがメモリ非効率であることが示されています。制御可能なアクティベーションメモリを備えた,メモリ効率の良いビルディングブロック群を紹介する。 1F1Bと同じアクティベーションメモリを維持しながら、ほぼゼロのパイプラインバブルを実現することができる。
論文参考訳（メタデータ） (2024-05-24T08:54:36Z)
When Foresight Pruning Meets Zeroth-Order Optimization: Efficient Federated Learning for Low-Memory Devices [36.23767349592602]
Federated Learning (FL)は、AIoT(Artificial Intelligence of Things)設計における協調学習を可能にする。 FLはメモリ使用量が多いため、低メモリのAIoTデバイスでは動作しない。本稿では,フェデレートされたBPフリートレーニングフレームワークとシームレスに統合可能な,ニューラル・タンジェント・カーネル(NTK)に基づくフェデレーションフォレスト・プルーニング手法を提案する。
論文参考訳（メタデータ） (2024-05-08T02:24:09Z)
UniPT: Universal Parallel Tuning for Transfer Learning with Efficient Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文参考訳（メタデータ） (2023-08-28T05:38:43Z)
Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。 Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。 ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文参考訳（メタデータ） (2021-11-22T11:23:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。