論文の概要: DBLP: Phase-Aware Bounded-Loss Transport for Burst-Resilient Distributed ML Training
- arxiv url: http://arxiv.org/abs/2605.01989v1
- Date: Sun, 03 May 2026 17:47:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.033108
- Title: DBLP: Phase-Aware Bounded-Loss Transport for Burst-Resilient Distributed ML Training
- Title(参考訳): DBLP:Burst-Resilient Distributed MLトレーニングのための相認識境界損失輸送
- Authors: Zechen Ma, Zixi Qu, Jinyan Yi, David Lin, Yashar Ganjali,
- Abstract要約: モデルレベルの耐性特性を勾配通信に組み込んだバーストレジリエントトランスポートプロトコルである動的境界ロスプロトコル(DBLP)を提案する。
現在の最先端ソリューション(ベースライン)と比較して、DBLPは、同等のテスト精度を達成しながら、かなり高い損失を許容します。
マイクロバーストイベントでは、DBLPはベースライン上での通信遅延の最大5.88倍のスピードアップを達成する。
- 参考スコア(独自算出の注目度): 0.44438823733883476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributed machine learning (ML) training has become a necessity with the prevalence of billion to trillion-parameter-scale models. While prior work has improved training efficiency from the ML perspective at the application layer, it often fails to address transient congestion events at the network layer that introduce severe tail latency and training-time variability, thereby undermining the quality of service (QoS) of distributed ML training systems. Existing network optimizations treat all gradients equally and thus fail to integrate sufficient model-training insights into communication protocol design. In this paper, we present Dynamic Bounded-Loss Protocol (DBLP), a burst-resilient, training-phase-aware, and hardware-agnostic transport protocol that incorporates model-level tolerance properties into gradient communication. By dynamically adjusting gradient loss tolerance across training phases, DBLP reduces overall training time and mitigates tail-latency collapse during transient high-loss events (i.e., microbursts). Compared to the current state-of-the-art solution (baseline), DBLP tolerates significantly higher loss while achieving comparable test accuracy, and reduces end-to-end training time by an average of 24.4% and a maximum of 33.9%. At microburst events, DBLP achieves up to 5.88x single-round communication latency speedups over the baseline, preventing burst-induced tail-latency spikes and maintaining stable training performance.
- Abstract(参考訳): 分散機械学習(ML)トレーニングは、数十億から1兆のパラメータスケールのモデルが普及するにつれて必要となっている。
以前の作業では、アプリケーション層におけるMLの観点からのトレーニング効率の改善があったが、厳しいテールレイテンシとトレーニング時間の変動をもたらすネットワーク層における過度な混雑イベントに対処できず、分散MLトレーニングシステムの品質(QoS)を損なうことが多かった。
既存のネットワーク最適化はすべての勾配を等しく扱うため、通信プロトコル設計に十分なモデル学習の洞察を統合することができない。
本稿では,モデルレベルの耐性特性を勾配通信に組み込んだ,バーストレジリエント,トレーニングフェーズ認識,ハードウェアに依存しないトランスポートプロトコルである,動的バウンド・ロスプロトコル(DBLP)を提案する。
トレーニングフェーズ間の勾配損失耐性を動的に調整することにより、DBLPは全体的なトレーニング時間を短縮し、一過性の高損失事象(マイクロバースト)におけるテールレイテンシー崩壊を緩和する。
現在の最先端のソリューション(ベースライン)と比較すると、DBLPは同等のテスト精度を達成しながら、はるかに高い損失を許容し、エンドツーエンドのトレーニング時間を平均24.4%、最大33.9%削減する。
マイクロバーストイベントでは、DBLPはベースライン上で最大5.88倍の単一ラウンドの通信遅延スピードアップを実現し、バースト誘起テールレイテンシのスパイクを防止し、安定したトレーニング性能を維持する。
関連論文リスト
- SNIP: An Adaptive Mixed Precision Framework for Subbyte Large Language Model Training [5.341188930460575]
現在の混合精度トレーニングアプローチは、すべてのGEMM操作に均一な精度を適用するか、トレーニング中に一般化に失敗する手法に依存するかのどちらかである。
本稿では,サブバイト精度をサポートするLSMプレトレーニングのための微粒化適応型混合精度学習フレームワークSNIPを紹介する。
1B, 3B, 7B, 70B Llamaのようなモデルに対する実験は、SNIPが既存のベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2026-02-01T19:34:27Z) - Plug-and-Play Homeostatic Spark: Zero-Cost Acceleration for SNN Training Across Paradigms [40.57310813106791]
スパイキングニューラルネットワークは、イベント駆動計算、スパースアクティベーション、ハードウェア効率を提供するが、トレーニングはしばしばゆっくりと収束し、安定性に欠ける。
AHSAR(Adaptive Homeostatic Spiking Activity Regulation)は,超簡易なプラグインおよびトレーニングパラダイムである。
AHSARは最適化を安定化し、モデルアーキテクチャや損失、勾配を変更することなく収束を加速する。
論文 参考訳(メタデータ) (2025-12-04T17:26:46Z) - SPEQ: Offline Stabilization Phases for Efficient Q-Learning in High Update-To-Data Ratio Reinforcement Learning [51.10866035483686]
強化学習(RL)における高アップデート・トゥ・データ(UTD)比のアルゴリズムは、サンプル効率を改善するが、高い計算コストを伴い、現実世界のスケーラビリティを制限している。
我々は、低UTDオンライントレーニングと周期的オフライン安定化フェーズを組み合わせたRLアルゴリズムである、効率的なQ-Learningのためのオフライン安定化フェーズ(SPEQ)を提案する。
これらのフェーズでは、Q-関数は固定されたリプレイバッファ上で高いUTD比で微調整され、サブ最適データの冗長な更新が削減される。
論文 参考訳(メタデータ) (2025-01-15T09:04:19Z) - SPAM: Spike-Aware Adam with Momentum Reset for Stable LLM Training [60.9776082805359]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示しているが、そのトレーニングは、非常にリソース集約的で、トレーニングの不安定性に影響を受けやすいままである。
本稿では,LLMトレーニング中に観測された勾配スパイクを包括的に調査し,複数のアーキテクチャやデータセットにまたがる傾向を明らかにする。
本稿では,モーメントムリセットを用いたスパイク・アウェア・アダムを提案し,モーメントムリセットとスパイク・アウェア・クリッピングによる勾配スパイク対策について述べる。
論文 参考訳(メタデータ) (2025-01-12T15:21:22Z) - AB-Training: A Communication-Efficient Approach for Distributed Low-Rank Learning [0.07227323884094951]
ABトレーニングは、低ランク表現と独立したトレーニンググループを活用して通信オーバーヘッドを低減する新しいデータ並列手法である。
実験では,様々なスケーリングシナリオにおいて,ネットワークトラフィックの約70.31%が平均で減少することを示した。
論文 参考訳(メタデータ) (2024-05-02T07:49:28Z) - Efficient Stagewise Pretraining via Progressive Subnetworks [53.00045381931778]
一般的な見方では、レイヤのドロップのような段階的なドロップ戦略は、スタック方式のアプローチと比べて効果がない。
本稿では, 適切な設計で, 戦略の廃止は, 積み重ね手法よりも競争力があることを示すことによって, この概念に挑戦する。
本稿では,各ステップでランダムサブネットワークのみを選択し,訓練し,段階的に拡大するランダムパートトレーニング(RAPTR)を提案する。
論文 参考訳(メタデータ) (2024-02-08T18:49:09Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。