論文の概要: COMET: A Comprehensive Cluster Design Methodology for Distributed Deep
Learning Training
- arxiv url: http://arxiv.org/abs/2211.16648v1
- Date: Wed, 30 Nov 2022 00:32:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 16:23:45.594504
- Title: COMET: A Comprehensive Cluster Design Methodology for Distributed Deep
Learning Training
- Title(参考訳): COMET:分散ディープラーニング学習のための総合的クラスタ設計手法
- Authors: Divya Kiran Kadiyala, Saeed Rashidi, Taekyung Heo, Abhimanyu
Rajeshkumar Bambhaniya, Tushar Krishna, and Alexandros Daglis
- Abstract要約: 現代のディープラーニング(DL)モデルは、トレーニングする専門的でハイエンドなノードの大規模なクラスタを必要とするサイズに成長しています。
このようなクラスタを設計して、パフォーマンスと利用の両方を最大化し、その急激なコストを償却することは、難しい作業です。
並列化戦略とキークラスタリソースのプロビジョニングが分散DLトレーニングのパフォーマンスに与える影響を共同で研究するために,COMETを総括的クラスタ設計方法論およびワークフローとして導入する。
- 参考スコア(独自算出の注目度): 56.54041912681912
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Modern Deep Learning (DL) models have grown to sizes requiring massive
clusters of specialized, high-end nodes to train. Designing such clusters to
maximize both performance and utilization to amortize their steep cost is a
challenging task requiring careful balance of compute, memory, and network
resources. Moreover, a plethora of each model's tuning knobs drastically affect
the performance, with optimal values often depending on the underlying
cluster's characteristics, which necessitates a complex cluster-workload
co-design process. To facilitate the design space exploration of such massive
DL training clusters, we introduce COMET a holistic cluster design methodology
and workflow to jointly study the impact of parallelization strategies and key
cluster resource provisioning on the performance of distributed DL training. We
develop a step-by-step process to establish a reusable and flexible
methodology, and demonstrate its application with a case study of training a
Transformer-1T model on a cluster of variable compute, memory, and network
resources. Our case study demonstrates COMET's utility in identifying promising
architectural optimization directions and guiding system designers in
configuring key model and cluster parameters.
- Abstract(参考訳): 現代のディープラーニング(DL)モデルは、トレーニングする専門的でハイエンドなノードの大規模なクラスタを必要とするサイズに成長しています。
高いコストを償却するためにパフォーマンスと利用の両方を最大化するためにクラスタを設計することは、計算、メモリ、ネットワークリソースの注意深くバランスをとる必要がある課題である。
さらに、各モデルのチューニングノブの多さはパフォーマンスに大きく影響し、最適な値は、複雑なクラスタ-ワークロード共設計プロセスを必要とする基礎となるクラスタの特性に依存することが多い。
このような大規模なdlトレーニングクラスタの設計空間の探索を容易にするために、並列化戦略と主要なクラスタリソースプロビジョニングが分散dlトレーニングのパフォーマンスに与える影響を共同研究するために、comet a holistic cluster design methodologyとworkflowを紹介する。
再利用可能な柔軟な方法論を確立するためのステップバイステッププロセスを開発し,可変計算,メモリ,ネットワークリソースのクラスタ上でtransformer-1tモデルをトレーニングするケーススタディを用いて,その応用例を示す。
ケーススタディでは、COMETが有望なアーキテクチャ最適化の方向性を特定し、キーモデルとクラスタパラメータの設定においてシステム設計者を導くのに有用であることを示す。
関連論文リスト
- LCFed: An Efficient Clustered Federated Learning Framework for Heterogeneous Data [21.341280782748278]
クラスタ型フェデレーションラーニング(CFL)は、フェデレーションラーニング(FL)におけるデータ不均一性に起因するパフォーマンス上の課題に対処する。
既存のCFLアプローチは、クラスタ内の知識共有を厳密に制限し、クラスタ内のトレーニングとグローバル知識の統合を欠いている。
これらの課題に対処するための効率的なCFLフレームワークであるLCFedを提案する。
論文 参考訳(メタデータ) (2025-01-03T14:59:48Z) - Improving Autoregressive Visual Generation with Cluster-Oriented Token Prediction [52.09472099976885]
IARは改良された自己回帰型ビジュアルジェネレーション手法である。
バランスの取れたk平均クラスタリングアルゴリズムを用いたCodebook Rearrangement戦略を提案する。
また,クラスタ指向のクロスエントロピーロスを提案し,トークンの所在するクラスタを正確に予測する。
論文 参考訳(メタデータ) (2025-01-01T15:58:51Z) - Graph Cut-guided Maximal Coding Rate Reduction for Learning Image Embedding and Clustering [2.4503870408262354]
本稿では,構造化埋め込みとクラスタリングを共同で学習するための統合フレームワーク,CgMCR(Cut-guided Maximal Coding Rate Reduction)を提案する。
我々は、標準画像データセットと外部画像データセットの両方について広範な実験を行い、提案手法の有効性を実験的に検証した。
論文 参考訳(メタデータ) (2024-12-25T15:20:54Z) - A Survey on Inference Optimization Techniques for Mixture of Experts Models [50.40325411764262]
大規模Mixture of Experts(MoE)モデルは、条件計算によるモデル容量と計算効率の向上を提供する。
これらのモデル上で推論をデプロイし実行することは、計算資源、レイテンシ、エネルギー効率において大きな課題を示す。
本調査では,システムスタック全体にわたるMoEモデルの最適化手法について分析する。
論文 参考訳(メタデータ) (2024-12-18T14:11:15Z) - Towards Automated Model Design on Recommender Systems [21.421326082345136]
重量共有を利用して豊富な解空間を探索する新しいパラダイムを導入する。
共同設計の観点からは,2倍FLOPs効率,1.8倍エネルギー効率,1.5倍の性能向上を実現している。
論文 参考訳(メタデータ) (2024-11-12T06:03:47Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - Dynamic Clustering and Cluster Contrastive Learning for Unsupervised
Person Re-identification [29.167783500369442]
教師なしRe-ID手法は、ラベルのないデータから堅牢で差別的な特徴を学習することを目的としている。
本稿では,動的クラスタリングとクラスタコントラスト学習(DCCC)手法を提案する。
提案したDCCCの有効性を検証するために, 広く利用されている複数の公開データセットの実験を行った。
論文 参考訳(メタデータ) (2023-03-13T01:56:53Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Distributed Training of Deep Learning Models: A Taxonomic Perspective [11.924058430461216]
分散ディープラーニングシステム(DDLS)は、クラスタの分散リソースを利用することで、ディープニューラルネットワークモデルをトレーニングする。
私たちは、独立したマシンのクラスタでディープニューラルネットワークをトレーニングする際の、作業の基本原則に光を当てることを目指しています。
論文 参考訳(メタデータ) (2020-07-08T08:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。