論文の概要: Demystifying Pipeline Parallelism: First Theory for PipeDream
- arxiv url: http://arxiv.org/abs/2606.03498v1
- Date: Tue, 02 Jun 2026 11:14:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.95869
- Title: Demystifying Pipeline Parallelism: First Theory for PipeDream
- Title(参考訳): Demystifying Pipeline Parallelism: First Theory for PipeDream
- Authors: Ivan Ilin, Peter Richtárik,
- Abstract要約: 本稿では、PDスタイルの手法に対して、クリーンな非収束性をもたらす固定ブロック-SGD抽象化としてランダム化PipeDream(PD)を導入する。
定常PDによって引き起こされる遅延は、$S2 - S/2 + O(1)$ for $S$として増大するので、スタイルリードのコントリビューションは、チューナレート形式で$(2S4)$、同等に$(S4/K)$としてスケールする。
- 参考スコア(独自算出の注目度): 53.657104889705856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training modern machine learning models increasingly requires computation to be distributed across many accelerators. Data parallelism remains the default choice and is often paired with tensor-parallel sharding, but model parallelism becomes unavoidable once parameters, activations, or optimizer states no longer fit on a single device. This paper studies pipeline model parallelism through the lens of PipeDream (PD) (Harlap et al., 2018). Our first contribution is theoretical: we introduce Randomized PipeDream (RPD), a stale block-SGD abstraction that yields, to our knowledge, the first clean nonconvex convergence guarantee for a PD-style method. Our second contribution is a scaling diagnosis: we prove that the delay induced by steady-state PD grows as $S^2 - S/2 + O(1)$ for $S$ stages, so the stale-read contribution in the convergence theorem scales as $Θ(γ^2 S^4)$, equivalently as $Θ(S^4/K)$ in the tuned-rate form. Our third contribution is a comparison with LocalSGD, whose periodic model averaging trades weight staleness for synchronization bubbles. In our reported simulated-time experiments, the better-performing method depends on the objective: PD performs better on the quadratic objective and on a small language-modeling training-loss task, while for logistic regression LocalSGD becomes superior as the number of stages increases.
- Abstract(参考訳): 現代の機械学習モデルのトレーニングでは、計算を多くのアクセラレータに分散させる必要がある。
データ並列化はデフォルトの選択のままであり、テンソル並列シャーディングとペアリングされることが多いが、パラメータやアクティベーション、オプティマイザ状態が1つのデバイスに収まらない場合、モデル並列化は避けられない。
本稿では,PipeDream (PD) (Harlap et al , 2018) のレンズによるパイプラインモデル並列性について検討する。
我々は、PDスタイルの手法に対する最初のクリーンな非凸収束保証法であるRandomized PipeDream (RPD)を導入する。
定常PDによって引き起こされる遅延は、$S^2 - S/2 + O(1)$ for $S$として増加することを証明するので、収束定理におけるスタイルリードの寄与は、チューナレート形式において$(γ^2 S^4)$、同値に$(S^4/K)$としてスケールする。
第3の貢献はLocalSGDとの比較である。
PDは2次目的と小さな言語モデリング訓練-余分なタスクで、ロジスティック回帰ではLocalSGDが、ステージ数が増えるにつれて優れている。
関連論文リスト
- Test-Time Scaling with Diffusion Language Models via Reward-Guided Stitching [66.39914384073145]
本稿では,安価な拡散サンプリング推論をステップレベル候補の再利用プールに変換する自己整合性フレームワークを提案する。
ステップレベルの再結合は、難しい問題に対して最も有益であることがわかった。
トレーニング不要のフレームワークは、6つの数学およびコーディングタスクの平均精度を最大2倍改善します。
論文 参考訳(メタデータ) (2026-02-26T11:08:39Z) - d3LLM: Ultra-Fast Diffusion LLM using Pseudo-Trajectory Distillation [31.922313594074925]
拡散大言語モデル (dLLM) は自己回帰 (AR) LLM 以上の機能を提供する。
現行の手法では、通常はコインの片面のみに焦点を合わせ、効率性や性能を目標としている。
本稿では,d3LLM (Pseudo-Distilled Diffusion Large Language Model) を提案する。
論文 参考訳(メタデータ) (2026-01-12T14:25:36Z) - From Continual Learning to SGD and Back: Better Rates for Continual Linear Models [50.11453013647086]
以前見られたタスクの損失を、$k$の繰り返しの後、忘れること、すなわち、分析する。
実現可能な最小二乗の設定において、新しい最上界を創出する。
我々は、タスクを繰り返しないランダム化だけで、十分に長いタスクシーケンスで破滅的な事態を防げることを初めて証明した。
論文 参考訳(メタデータ) (2025-04-06T18:39:45Z) - Accelerating Diffusion Models with Parallel Sampling: Inference at Sub-Linear Time Complexity [11.71206628091551]
拡散モデルは、訓練と評価に費用がかかるため、拡散モデルの推論コストを削減することが大きな目標である。
並列サンプリング手法であるHh2024parallelを用いて拡散モデルを高速化する実験的な成功に触発されて,サンプリングプロセスを各ブロック内に並列化可能なPicard繰り返しを持つ$mathcalO(1)$ブロックに分割することを提案する。
我々の結果は、高速で効率的な高次元データサンプリングの可能性に光を当てた。
論文 参考訳(メタデータ) (2024-05-24T23:59:41Z) - Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative
Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。
従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文 参考訳(メタデータ) (2023-06-15T16:30:08Z) - Scaling up Stochastic Gradient Descent for Non-convex Optimisation [5.908471365011942]
本稿では,共有並列計算問題に対する新しいアプローチを提案する。
2つの戦略を統一されたフレームワークに組み合わせることで、DPSGDはより良い取引計算フレームワークになります。
深層学習(DRL)問題と深層学習(DRL)問題(アドバンテージアクター - A2C)についてDPSGDにより潜在ゲインを達成できる。
論文 参考訳(メタデータ) (2022-10-06T13:06:08Z) - Differentially Private Sampling from Rashomon Sets, and the Universality
of Langevin Diffusion for Convex Optimization [15.404265455635587]
プライバシー分析が凸性に依存しず、プライバシーを損なうことなくいつでも停止することができる指数関数機構からのサンプリングアルゴリズムを提案する。
我々は、純粋および近似微分プライバシー(DP)の下で(強く)凸損失に対する最適過大な経験と人口リスクの保証を得る。
このフレームワークにより、Rashomon集合からDP一様サンプリングを設計できる。
論文 参考訳(メタデータ) (2022-04-04T15:33:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。