論文の概要: COMET: A Comprehensive Cluster Design Methodology for Distributed Deep
Learning Training
- arxiv url: http://arxiv.org/abs/2211.16648v1
- Date: Wed, 30 Nov 2022 00:32:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 16:23:45.594504
- Title: COMET: A Comprehensive Cluster Design Methodology for Distributed Deep
Learning Training
- Title(参考訳): COMET:分散ディープラーニング学習のための総合的クラスタ設計手法
- Authors: Divya Kiran Kadiyala, Saeed Rashidi, Taekyung Heo, Abhimanyu
Rajeshkumar Bambhaniya, Tushar Krishna, and Alexandros Daglis
- Abstract要約: 現代のディープラーニング(DL)モデルは、トレーニングする専門的でハイエンドなノードの大規模なクラスタを必要とするサイズに成長しています。
このようなクラスタを設計して、パフォーマンスと利用の両方を最大化し、その急激なコストを償却することは、難しい作業です。
並列化戦略とキークラスタリソースのプロビジョニングが分散DLトレーニングのパフォーマンスに与える影響を共同で研究するために,COMETを総括的クラスタ設計方法論およびワークフローとして導入する。
- 参考スコア(独自算出の注目度): 56.54041912681912
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Modern Deep Learning (DL) models have grown to sizes requiring massive
clusters of specialized, high-end nodes to train. Designing such clusters to
maximize both performance and utilization to amortize their steep cost is a
challenging task requiring careful balance of compute, memory, and network
resources. Moreover, a plethora of each model's tuning knobs drastically affect
the performance, with optimal values often depending on the underlying
cluster's characteristics, which necessitates a complex cluster-workload
co-design process. To facilitate the design space exploration of such massive
DL training clusters, we introduce COMET a holistic cluster design methodology
and workflow to jointly study the impact of parallelization strategies and key
cluster resource provisioning on the performance of distributed DL training. We
develop a step-by-step process to establish a reusable and flexible
methodology, and demonstrate its application with a case study of training a
Transformer-1T model on a cluster of variable compute, memory, and network
resources. Our case study demonstrates COMET's utility in identifying promising
architectural optimization directions and guiding system designers in
configuring key model and cluster parameters.
- Abstract(参考訳): 現代のディープラーニング(DL)モデルは、トレーニングする専門的でハイエンドなノードの大規模なクラスタを必要とするサイズに成長しています。
高いコストを償却するためにパフォーマンスと利用の両方を最大化するためにクラスタを設計することは、計算、メモリ、ネットワークリソースの注意深くバランスをとる必要がある課題である。
さらに、各モデルのチューニングノブの多さはパフォーマンスに大きく影響し、最適な値は、複雑なクラスタ-ワークロード共設計プロセスを必要とする基礎となるクラスタの特性に依存することが多い。
このような大規模なdlトレーニングクラスタの設計空間の探索を容易にするために、並列化戦略と主要なクラスタリソースプロビジョニングが分散dlトレーニングのパフォーマンスに与える影響を共同研究するために、comet a holistic cluster design methodologyとworkflowを紹介する。
再利用可能な柔軟な方法論を確立するためのステップバイステッププロセスを開発し,可変計算,メモリ,ネットワークリソースのクラスタ上でtransformer-1tモデルをトレーニングするケーススタディを用いて,その応用例を示す。
ケーススタディでは、COMETが有望なアーキテクチャ最適化の方向性を特定し、キーモデルとクラスタパラメータの設定においてシステム設計者を導くのに有用であることを示す。
関連論文リスト
- Towards Automated Model Design on Recommender Systems [21.421326082345136]
重量共有を利用して豊富な解空間を探索する新しいパラダイムを導入する。
共同設計の観点からは,2倍FLOPs効率,1.8倍エネルギー効率,1.5倍の性能向上を実現している。
論文 参考訳(メタデータ) (2024-11-12T06:03:47Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - A Generalized Framework for Predictive Clustering and Optimization [18.06697544912383]
クラスタリングは強力で広く使われているデータサイエンスツールです。
本稿では,予測クラスタリングのための一般化最適化フレームワークを定義する。
また,大域的最適化のためにMILP(mixed-integer linear programming)を利用する共同最適化手法を提案する。
論文 参考訳(メタデータ) (2023-05-07T19:56:51Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Dynamic Clustering and Cluster Contrastive Learning for Unsupervised
Person Re-identification [29.167783500369442]
教師なしRe-ID手法は、ラベルのないデータから堅牢で差別的な特徴を学習することを目的としている。
本稿では,動的クラスタリングとクラスタコントラスト学習(DCCC)手法を提案する。
提案したDCCCの有効性を検証するために, 広く利用されている複数の公開データセットの実験を行った。
論文 参考訳(メタデータ) (2023-03-13T01:56:53Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - AMP: Automatically Finding Model Parallel Strategies with Heterogeneity
Awareness [10.20441432750275]
我々は,モデル並列実行戦略を自動的に導出するAMPを開発する。
パブリッククラウドから人気のモデルとクラスタのセットアップでAMPを評価します。
AMPは、最先端のモデル並列システムよりも1.54倍と1.77倍高いスループットの戦略を見つける。
論文 参考訳(メタデータ) (2022-10-13T18:55:28Z) - Deep Attention-guided Graph Clustering with Dual Self-supervision [49.040136530379094]
デュアル・セルフ・スーパービジョン(DAGC)を用いたディープアテンション誘導グラフクラスタリング法を提案する。
我々は,三重項Kulback-Leibler分散損失を持つソフトな自己スーパービジョン戦略と,擬似的な監督損失を持つハードな自己スーパービジョン戦略からなる二重自己スーパービジョンソリューションを開発する。
提案手法は6つのベンチマークデータセットにおける最先端の手法より一貫して優れている。
論文 参考訳(メタデータ) (2021-11-10T06:53:03Z) - Distributed Training of Deep Learning Models: A Taxonomic Perspective [11.924058430461216]
分散ディープラーニングシステム(DDLS)は、クラスタの分散リソースを利用することで、ディープニューラルネットワークモデルをトレーニングする。
私たちは、独立したマシンのクラスタでディープニューラルネットワークをトレーニングする際の、作業の基本原則に光を当てることを目指しています。
論文 参考訳(メタデータ) (2020-07-08T08:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。