論文の概要: When Scaling Fails: Network and Fabric Effects on Distributed GPU Training Performance
- arxiv url: http://arxiv.org/abs/2603.04424v1
- Date: Mon, 16 Feb 2026 16:19:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.202014
- Title: When Scaling Fails: Network and Fabric Effects on Distributed GPU Training Performance
- Title(参考訳): スケール障害: ネットワークとファブリックが分散GPUトレーニングパフォーマンスに与える影響
- Authors: Dinesh Gopalan, Ratul Ali,
- Abstract要約: 本稿では,ネットワークとファブリックの効果に焦点をあて,実システムにおいてスケーリングが失敗する理由について考察する。
本稿では,複数のプロダクションスケールクラスタを対象とした分散GPUトレーニング性能に関する実証的研究を行う。
単一ノードからマルチノード実行へのトレーニング移行に伴って発生する繰り返し発生する障害モードを特定します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling distributed GPU training is commonly assumed to yield predictable performance gains as additional nodes are added. In practice, many large-scale deployments encounter diminishing returns and unstable behavior well before theoretical limits are reached. This paper examines why scaling fails in real systems, with a focus on the role of network and fabric effects that are often overlooked by higher-level training frameworks. We present an empirical study of distributed GPU training performance across multiple production-scale clusters. Our results show that network topology, congestion dynamics, collective synchronization behavior, and GPU locality frequently dominate end-to-end training performance once workloads move beyond a small number of nodes. Identical models and software stacks can exhibit sharply different scaling characteristics depending on fabric design and runtime communication patterns. We identify recurring failure modes that emerge as training transitions from single-node to multi-node execution, including synchronization amplification, topology-induced contention, and locality-driven performance variance. These effects are often invisible to standard profiling tools and are therefore misdiagnosed as framework or model-level inefficiencies. Based on these findings, we outline practical diagnostic principles that system builders can apply to understand scaling limits, improve predictability, and reduce the cost of large-scale distributed training.
- Abstract(参考訳): 分散GPUトレーニングのスケーリングは、ノードの追加に伴って予測可能なパフォーマンス向上をもたらすと一般的に想定されている。
実際には、理論的な限界に達するずっと前に、多くの大規模デプロイメントが減少するリターンと不安定な振る舞いに遭遇する。
本稿では,高レベルのトレーニングフレームワークでしばしば見落とされがちなネットワークとファブリックの効果に焦点をあてて,実際のシステムでスケーリングが失敗する理由を考察する。
本稿では,複数のプロダクションスケールクラスタを対象とした分散GPUトレーニング性能に関する実証的研究を行う。
この結果から,ネットワークトポロジ,混雑ダイナミクス,集合同期動作,GPUの局所性が,ワークロードが少数のノードを超えると,エンドツーエンドのトレーニングパフォーマンスを支配していることがわかった。
識別モデルとソフトウェアスタックは、ファブリック設計や実行時の通信パターンによって、大きく異なるスケーリング特性を示すことができます。
我々は、同期増幅、トポロジ誘起競合、局所性駆動性能分散を含む、単一ノードからマルチノード実行へのトレーニング遷移として現れる繰り返し障害モードを同定する。
これらの効果はしばしば標準的なプロファイリングツールには見えないため、フレームワークやモデルレベルの非効率性として誤解される。
これらの知見に基づいて,システム構築者がスケーリングの限界を理解し,予測可能性を改善し,大規模分散トレーニングのコストを削減するために適用できる,実用的な診断原理を概説する。
関連論文リスト
- Characterizing the Efficiency of Distributed Training: A Power, Performance, and Thermal Perspective [6.51239603014107]
大規模言語モデル(LLM)は、単一ノード分析の限界を超えて、トレーニングワークロードを推し進めている。
様々な実世界のワークロードとハードウェアプラットフォームにわたるLLMトレーニングの包括的特徴について述べる。
論文 参考訳(メタデータ) (2025-09-12T16:05:07Z) - Simplifying Distributed Neural Network Training on Massive Graphs:
Randomized Partitions Improve Model Aggregation [23.018715954992352]
本稿では、前述のコスト操作に依存しない分散GNNトレーニングのための簡易フレームワークを提案する。
具体的には,トレーニンググラフの局所的に利用可能な部分の局所モデルを非同期に学習する独立したトレーナーを編成する。
最大13億エッジのソーシャルおよびeコマースネットワークの実験において、提案したRandomTMAおよびSuperTMAアプローチは、最速のベースラインと比較して最先端のパフォーマンスと2.31倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2023-05-17T01:49:44Z) - Decouple Graph Neural Networks: Train Multiple Simple GNNs Simultaneously Instead of One [60.5818387068983]
グラフニューラルネットワーク(GNN)は、深刻な非効率性に悩まされている。
我々は,より効率的なトレーニングを行うために,多層GNNを複数の単純なモジュールとして分離することを提案する。
提案するフレームワークは,合理的な性能で高い効率性を示す。
論文 参考訳(メタデータ) (2023-04-20T07:21:32Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Distributed Adversarial Training to Robustify Deep Neural Networks at
Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。
このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。
複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-13T15:39:43Z) - Distribution Mismatch Correction for Improved Robustness in Deep Neural
Networks [86.42889611784855]
正規化法は ノイズや入力の腐敗に関して 脆弱性を増大させる
本稿では,各層の活性化分布に適応する非教師なし非パラメトリック分布補正法を提案する。
実験により,提案手法は画像劣化の激しい影響を効果的に低減することを示した。
論文 参考訳(メタデータ) (2021-10-05T11:36:25Z) - Using Graph Neural Networks to model the performance of Deep Neural
Networks [2.1151356984322307]
グラフ表現を取り入れた新しいパフォーマンスモデルを開発した。
実験により,HalideモデルとTVMモデルと比較すると,予測誤差が7:75x,12x減少した。
論文 参考訳(メタデータ) (2021-08-27T20:20:17Z) - DBS: Dynamic Batch Size For Distributed Deep Neural Network Training [19.766163856388694]
ディープニューラルネットワーク(DNN)の分散学習のための動的バッチサイズ(DBS)戦略を提案する。
具体的には、前のエポックの事実に基づいて各ワーカーのパフォーマンスを第一に評価し、バッチサイズとデータセット分割を動的に調整する。
実験結果から,提案手法はクラスタの性能を十分に活用し,トレーニング時間を短縮し,無関係なタスクによる障害に強いロバスト性を有することを示す。
論文 参考訳(メタデータ) (2020-07-23T07:31:55Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。