論文の概要: NestPipe: Large-Scale Recommendation Training on 1,500+ Accelerators via Nested Pipelining
- arxiv url: http://arxiv.org/abs/2604.06956v1
- Date: Wed, 08 Apr 2026 11:19:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.494347
- Title: NestPipe: Large-Scale Recommendation Training on 1,500+ Accelerators via Nested Pipelining
- Title(参考訳): NestPipe:Nested Pipeliningを通じて1500以上の加速器上での大規模レコメンデーショントレーニング
- Authors: Zhida Jiang, Zhaolong Xing, Huichao Chai, Tianxing Sun, Qiang Peng, Baopeng Yuan, Jiaxing Wang, Hua Du, Zhixin Wu, Xuemiao Li, Yikui Cao, Xinyu Liu, Yongxiang Feng, Zhen Chen, Ke Zhang,
- Abstract要約: NestPipeは大規模な分散組み込みトレーニングフレームワークである。
ネストパイプライニングによる2つの階層的なスパース並列化の機会を利用する。
1,536人の労働者によるプロダクションGPUとNPUクラスタの実験では、NestPipeは最大3.06倍のスピードアップと94.07%のスケーリング効率を達成した。
- 参考スコア(独自算出の注目度): 9.69998937447445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern recommendation models have increased to trillions of parameters. As cluster scales expand to O(1k), distributed training bottlenecks shift from computation and memory to data movement, especially lookup and communication latency associated with embeddings. Existing solutions either optimize only one bottleneck or improve throughput by sacrificing training consistency. This paper presents NestPipe, a large-scale decentralized embedding training framework that tackles both bottlenecks while preserving synchronous training semantics. NestPipe exploits two hierarchical sparse parallelism opportunities through nested pipelining. At the inter-batch level, Dual-Buffer Pipelining (DBP) constructs a staleness-free five-stage pipeline through dual-buffer synchronization, mitigating lookup bottlenecks without embedding staleness. At the intra-batch level, we identify the embedding freezing phenomenon, which inspires Frozen-Window Pipelining (FWP) to overlap All2All communication with dense computation via coordinated stream scheduling and key-centric sample clustering. Experiments on production GPU and NPU clusters with 1,536 workers demonstrate that NestPipe achieves up to 3.06x speedup and 94.07% scaling efficiency.
- Abstract(参考訳): 現代のレコメンデーションモデルは数兆のパラメータに増加した。
クラスタスケールがO(1k)に拡大するにつれて、分散トレーニングのボトルネックは、計算とメモリからデータ移動、特に組み込みに関連するルックアップと通信遅延へとシフトする。
既存のソリューションは1つのボトルネックのみを最適化するか、トレーニング一貫性を犠牲にすることでスループットを向上させる。
本稿では,同期トレーニングセマンティクスを保ちながら,両方のボトルネックに対処する大規模な分散埋め込みトレーニングフレームワークであるNestPipeについて述べる。
NestPipeは、ネストしたパイプライニングを通じて、2つの階層的なスパース並列化の機会を利用する。
バッチ間レベルでは、Dual-Buffer Pipelining (DBP)は、デュアルバッファ同期を通じて、スタルネスのない5ステージパイプラインを構築し、スタルネスを埋め込むことなくルックアップボトルネックを緩和する。
バッチ内レベルでは,FWP(Frozen-Window Pipelining)にインスパイアされた埋込凍結現象を同定し,コーディネートストリームスケジューリングとキー中心のサンプルクラスタリングによる高密度計算によるAll2All通信を重畳する。
1,536人の労働者によるプロダクションGPUとNPUクラスタの実験では、NestPipeは最大3.06倍のスピードアップと94.07%のスケーリング効率を達成した。
関連論文リスト
- Efficient Learned Data Compression via Dual-Stream Feature Decoupling [11.752785837648199]
本稿では,深層並列処理を浅層並列ストリームに置き換えるために,ローカルおよびグローバルコンテキストをアンハングするDual-Stream Multi-Scale Decouplerを提案する。
本手法は,低レイテンシとメモリ使用量を維持しながら,圧縮比とスループットの両面で最先端性能を実現する。
論文 参考訳(メタデータ) (2026-04-08T16:05:24Z) - AsyncMesh: Fully Asynchronous Optimization for Data and Pipeline Parallelism [54.8494905524997]
両方の並列処理軸をまたいだ非同期更新を導入し、コロケーション要求を緩和します。
スパース平均化と非同期更新の両方に対して収束保証を提供します。
大規模言語モデルを用いた実験により,本手法が完全同期ベースラインの性能と一致することを示した。
論文 参考訳(メタデータ) (2026-01-30T01:24:47Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - Nesterov Method for Asynchronous Pipeline Parallel Optimization [59.79227116582264]
パイプライン並列処理における非同期最適化のために,Nesterov Accelerated Gradient (NAG) の変種を導入する。
具体的には、NAGのルックアヘッドステップを変更して、勾配の安定性を効果的に解決する。
我々は、勾配の固定遅延の存在下で、我々のアプローチがサブ線形速度で収束することを理論的に証明する。
論文 参考訳(メタデータ) (2025-05-02T08:23:29Z) - BitPipe: Bidirectional Interleaved Pipeline Parallelism for Accelerating Large Models Training [5.7294516069851475]
BitPipeは、大規模なモデルのトレーニングを加速するための双方向のインターリーブパイプライン並列処理である。
最新の同期手法と比較して,BitPipeはGPTスタイルとBERTスタイルのモデルのトレーニングスループットを1.05x-1.28倍向上することを示す。
論文 参考訳(メタデータ) (2024-10-25T08:08:51Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - ReCycle: Resilient Training of Large DNNs using Pipeline Adaptation [2.0181279529015925]
ReCycleは、障害発生時の効率的なトレーニング用に設計されたシステムである。
分散トレーニングシステムに固有の機能的冗長性を活用する。
複数の障害で高いトレーニングスループットを実現していることを示す。
論文 参考訳(メタデータ) (2024-05-22T21:35:56Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - Accelerating Distributed K-FAC with Smart Parallelism of Computing and
Communication Tasks [13.552262050816616]
Kronecker-Factored Approximate Curvature (KFAC)は、深層モデルのトレーニングにおいて最も効率的な近似アルゴリズムの1つである。
しかし、KFACでモデルをトレーニングするためにGPUクラスタを活用すると、大規模な計算が発生すると同時に、イテレーション毎に余分な通信が導入される。
そこで我々は,D-KFACを提案する。
論文 参考訳(メタデータ) (2021-07-14T08:01:07Z) - Stochastic Optimization with Laggard Data Pipelines [65.20044914532221]
共通最適化手法の「データ抽出」拡張は同期手法よりも優れた性能を示すことを示す。
具体的には、ミニバッチによる凸最適化において、データエコーは、最適統計率を維持しながら収束率の曲率に支配される部分の高速化をもたらすことを示す。
論文 参考訳(メタデータ) (2020-10-26T14:55:31Z) - Pipelined Training with Stale Weights of Deep Convolutional Neural
Networks [0.1921787217122713]
パイプライン化バックプロパゲーション方式の統計的効率と性能に及ぼす固定重みの影響について検討する。
パイプライニングがネットワークの初期の層に限られている場合、固定重み付きトレーニングが収束し、同じ精度のモデルが得られることを示す。
本稿では,パイプライン型と非パイプライン型を併用したハイブリッドスキームを提案する。
論文 参考訳(メタデータ) (2019-12-29T15:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。