論文の概要: OptPipe: Memory- and Scheduling-Optimized Pipeline Parallelism for LLM Training
- arxiv url: http://arxiv.org/abs/2510.05186v1
- Date: Mon, 06 Oct 2025 01:06:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-27 22:13:09.305532
- Title: OptPipe: Memory- and Scheduling-Optimized Pipeline Parallelism for LLM Training
- Title(参考訳): OptPipe: LLMトレーニングのためのメモリとスケジューリングを最適化したパイプライン並列処理
- Authors: Hongpei Li, Han Zhang, Huikang Liu, Dongdong Ge, Yinyu Ye,
- Abstract要約: Pipeline(PP)は、大規模言語モデル(LLM)トレーニングを複数のデバイスに拡張する標準的なテクニックになっている。
本研究では,パイプラインスケジューリング問題について,原理的最適化の観点から再検討する。
本稿では, メモリ容量, アクティベーション再利用, パイプラインバブル最小化を両立させる制約付き最適化問題としてスケジューリングを定式化する。
- 参考スコア(独自算出の注目度): 13.814101909348183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pipeline parallelism (PP) has become a standard technique for scaling large language model (LLM) training across multiple devices. However, despite recent progress in reducing memory consumption through activation offloading, existing approaches remain largely heuristic and coarse-grained, often overlooking the fine-grained trade-offs between memory, computation, and scheduling latency. In this work, we revisit the pipeline scheduling problem from a principled optimization perspective. We observe that prevailing strategies either rely on static rules or aggressively offload activations without fully leveraging the interaction between memory constraints and scheduling efficiency. To address this, we formulate scheduling as a constrained optimization problem that jointly accounts for memory capacity, activation reuse, and pipeline bubble minimization. Solving this model yields fine-grained schedules that reduce pipeline bubbles while adhering to strict memory budgets. Our approach complements existing offloading techniques: whereas prior approaches trade memory for time in a fixed pattern, we dynamically optimize the tradeoff with respect to model structure and hardware configuration. Experimental results demonstrate that our method consistently improves both throughput and memory utilization. In particular, we reduce idle pipeline time by up to 50% under the same per-device memory limit, and in some cases, enable the training of larger models within limited memory budgets.
- Abstract(参考訳): パイプライン並列性(PP)は、大規模言語モデル(LLM)トレーニングを複数のデバイスに拡張するための標準技術となっている。
しかしながら、アクティベーションオフロードによるメモリ消費の削減が近年進展しているにもかかわらず、既存のアプローチは概ねヒューリスティックで粗い粒度であり、多くの場合、メモリ、計算、スケジューリング遅延の微妙なトレードオフを見落としている。
本研究では,パイプラインスケジューリング問題について,原理的最適化の観点から再検討する。
我々は、メモリ制約とスケジューリング効率の相互作用を完全に活用することなく、静的なルールに依存するか、積極的にアクティベーションをオフロードする戦略を観察する。
これを解決するために,我々は,メモリ容量,活性化再利用,パイプラインバブル最小化を共同で考慮した制約付き最適化問題としてスケジューリングを定式化する。
このモデルの解決は、厳格なメモリ予算に固執しながらパイプラインバブルを減らす、きめ細かいスケジュールをもたらす。
我々のアプローチは、既存のオフロード手法を補完する。以前のアプローチでは、固定パターンで時間間メモリを交換するが、モデル構造やハードウェア構成に関して、トレードオフを動的に最適化する。
実験結果から,本手法はスループットとメモリ使用量の両方を継続的に改善することが示された。
特に、デバイス単位のメモリ制限でアイドルパイプライン時間を最大50%削減し、場合によっては、限られたメモリ予算内で大規模なモデルのトレーニングを可能にします。
関連論文リスト
- CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - SlimPipe: Memory-Thrifty and Efficient Pipeline Parallelism for Long-Context LLM Training [21.93724007255793]
SlimPipeは、きめ細かいパイプライン並列化に対する新しいアプローチである。
蓄積した活性化をいくつかのマイクロバッチから1つに減らし、いくつかのスライスに分割する。
ほぼゼロのメモリオーバーヘッドを達成し、(2)パイプラインバブルを同時に最小化する。
論文 参考訳(メタデータ) (2025-04-20T07:33:33Z) - Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints [14.341123057506827]
大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、推論手順は重要な計算資源を必要とする。
本稿では,多段階オンラインスケジューリング問題としてLLM推論最適化を定式化する。
我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
論文 参考訳(メタデータ) (2025-04-15T16:00:21Z) - PipeOffload: Improving Scalability of Pipeline Parallelism with Memory Optimization [6.583624095434975]
パイプライン並列 (PP) は大規模言語モデル (LLM) の訓練に広く用いられている。
PPは、飛行中のマイクロバッチの数がPPの程度に増加するにつれて、高活性化メモリ消費によって制約されることが多い。
我々は、PPの未探索メモリオフロード戦略を活用することで、この問題に対処することに注力する。
論文 参考訳(メタデータ) (2025-03-03T09:11:06Z) - Sparse Gradient Compression for Fine-Tuning Large Language Models [58.44973963468691]
ダウンストリームタスクのための微調整された大型言語モデル(LLM)は、広く利用されていることと、オープンソースモデルの利用が増加しているために、ますます重要になっている。
微調整に伴う高メモリコストは、特にモデルのサイズが大きくなるにつれて大きな課題である。
これらの制約に対処するためにスパース圧縮勾配(SGC)を提案する。
論文 参考訳(メタデータ) (2025-02-01T04:18:28Z) - Mini-Sequence Transformer: Optimizing Intermediate Memory for Long Sequences Training [78.93900796545523]
ミニシーケンス変換器(Mini-Sequence Transformer, MsT)は、非常に長いシーケンスを持つ高速かつ高精度なLLMトレーニング手法である。
MsTは入力シーケンスを分割し、中間メモリ使用量を減らすためにミニシーケンスを反復的に処理する。
huggingfaceライブラリと統合され、MsTはQwen、Mistral、Gemma-2の最大コンテキスト長を12-24倍に拡張した。
論文 参考訳(メタデータ) (2024-07-22T01:52:30Z) - MEMO: Fine-grained Tensor Management For Ultra-long Context LLM Training [24.066283519769968]
大規模言語モデル(LLM)は、よりクリエイティブなアプリケーションを促進するために、拡張コンテキスト長を使用して訓練されている。
本稿では,メモリ管理を微粒化するための新しいフレームワークであるMEMOを提案する。
MeMOはMegatron-LMやDeepSpeedと比べて平均1.97倍と1.80倍のMFUを達成している。
論文 参考訳(メタデータ) (2024-07-16T18:59:49Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - UniPT: Universal Parallel Tuning for Transfer Learning with Efficient
Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。
最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。
メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文 参考訳(メタデータ) (2023-08-28T05:38:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。