論文の概要: HammingMesh: A Network Topology for Large-Scale Deep Learning
- arxiv url: http://arxiv.org/abs/2209.01346v1
- Date: Sat, 3 Sep 2022 07:09:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 15:13:14.497173
- Title: HammingMesh: A Network Topology for Large-Scale Deep Learning
- Title(参考訳): HammingMesh: 大規模ディープラーニングのためのネットワークトポロジ
- Authors: Torsten Hoefler, Tommaso Bonato, Daniele De Sensi, Salvatore Di
Girolamo, Shigang Li, Marco Heddes, Jon Belk, Deepak Goel, Miguel Castro,
Steve Scott
- Abstract要約: ネットワークトポロジーであるハミングメシュを設計し、高いジョブスケジューリングの柔軟性を備えた低コストで高帯域幅を提供する。
具体的には、HammingMeshは2次元の並列性を持つディープラーニングトレーニングジョブに対して、完全な帯域幅と分離をサポートすることができる。
- 参考スコア(独自算出の注目度): 12.8646136247073
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Numerous microarchitectural optimizations unlocked tremendous processing
power for deep neural networks that in turn fueled the AI revolution. With the
exhaustion of such optimizations, the growth of modern AI is now gated by the
performance of training systems, especially their data movement. Instead of
focusing on single accelerators, we investigate data-movement characteristics
of large-scale training at full system scale. Based on our workload analysis,
we design HammingMesh, a novel network topology that provides high bandwidth at
low cost with high job scheduling flexibility. Specifically, HammingMesh can
support full bandwidth and isolation to deep learning training jobs with two
dimensions of parallelism. Furthermore, it also supports high global bandwidth
for generic traffic. Thus, HammingMesh will power future large-scale deep
learning systems with extreme bandwidth requirements.
- Abstract(参考訳): 多くのマイクロアーキテクチャ最適化は、ディープニューラルネットワークの膨大な処理能力を解き放ち、それがai革命の原動力となった。
このような最適化の欠如により、現代のAIの成長は、トレーニングシステム、特にデータムーブメントのパフォーマンスによって妨げられている。
単一のアクセラレータに注目するのではなく,大規模トレーニングにおけるデータ移動特性をシステム規模で調査する。
ワークロード分析に基づいてhammingmeshを設計した。hammingmeshは、ジョブスケジューリングの柔軟性が高く、低コストで高い帯域幅を提供する、新しいネットワークトポロジーです。
具体的には、HammingMeshは2次元の並列性を持つディープラーニングトレーニングジョブに対して、完全な帯域幅と分離をサポートすることができる。
さらに、汎用トラフィックのための高いグローバル帯域幅もサポートする。
したがってhammingmeshは、将来の大規模ディープラーニングシステムを、帯域幅の極端な要件で駆動する。
関連論文リスト
- Adaptive Width Neural Networks [22.94363065387228]
トレーニング中にニューラルネットワークの層の境界のない幅を学習するために,使い易い手法を導入する。
ニューロン間の重要な順序の柔らかい順序を付与することにより、訓練されたネットワークを事実上ゼロコストで切り離すことができる。
論文 参考訳(メタデータ) (2025-01-27T09:25:56Z) - NetFlowGen: Leveraging Generative Pre-training for Network Traffic Dynamics [72.95483148058378]
我々は,NetFlowレコードからのトラフィックデータのみを用いて,トラフィックダイナミクスをキャプチャする汎用機械学習モデルを事前学習することを提案する。
ネットワーク特徴表現の統一,未ラベルの大規模トラフィックデータ量からの学習,DDoS攻撃検出における下流タスクのテストといった課題に対処する。
論文 参考訳(メタデータ) (2024-12-30T00:47:49Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Solving Large-scale Spatial Problems with Convolutional Neural Networks [88.31876586547848]
大規模空間問題に対する学習効率を向上させるために移動学習を用いる。
畳み込みニューラルネットワーク (CNN) は, 信号の小さな窓で訓練できるが, 性能劣化の少ない任意の大信号で評価できる。
論文 参考訳(メタデータ) (2023-06-14T01:24:42Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - A Multi-channel Training Method Boost the Performance [0.0]
深層畳み込みニューラルネットワークは大きな革命を遂げ、分類やセグメンテーションといったコンピュータビジョンタスクにおいて優れたパフォーマンスを示している。
近年、携帯電話などの組み込みシステムに限られたメモリを適応させるため、ネットワークの規模を拡大する努力が盛んに行われている。
本稿では,ターゲットネットワークの性能とロバスト性を向上するマルチチャネルトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-12-27T15:18:16Z) - JUMBO: Scalable Multi-task Bayesian Optimization using Offline Data [86.8949732640035]
追加データをクエリすることで制限をサイドステップするMBOアルゴリズムであるJUMBOを提案する。
GP-UCBに類似した条件下では, 応答が得られないことを示す。
実世界の2つの最適化問題に対する既存手法に対する性能改善を実証的に示す。
論文 参考訳(メタデータ) (2021-06-02T05:03:38Z) - High-performance, Distributed Training of Large-scale Deep Learning
Recommendation Models [18.63017668881868]
ディープラーニングレコメンデーションモデル(DLRM)は、Facebookの多くのビジネスクリティカルサービスで使用されている。
本稿では,大規模DLRMの高性能分散トレーニングのためのSW/HW共同設計ソリューションについて論じる。
我々は、最大12トリリオンパラメータで非常に大きなDLRMを訓練する能力を実証し、以前のシステムよりも解決策に時間の観点から40倍のスピードアップを達成できることを示しています。
論文 参考訳(メタデータ) (2021-04-12T02:15:55Z) - The Case for Strong Scaling in Deep Learning: Training Large 3D CNNs
with Hybrid Parallelism [3.4377970608678314]
大規模3次元畳み込みニューラルネットワークを学習するためのスケーラブルなハイブリッド並列アルゴリズムを提案する。
提案したトレーニングアルゴリズムを,CosmoFlowと3D U-Netの2つの挑戦的な3D CNNを用いて評価した。
論文 参考訳(メタデータ) (2020-07-25T05:06:06Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。