論文の概要: COMET: A Comprehensive Cluster Design Methodology for Distributed Deep Learning Training
- arxiv url: http://arxiv.org/abs/2211.16648v2
- Date: Thu, 14 Mar 2024 15:06:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-16 03:12:58.628461
- Title: COMET: A Comprehensive Cluster Design Methodology for Distributed Deep Learning Training
- Title(参考訳): COMET:分散ディープラーニング学習のための総合的クラスタ設計手法
- Authors: Divya Kiran Kadiyala, Saeed Rashidi, Taekyung Heo, Abhimanyu Rajeshkumar Bambhaniya, Tushar Krishna, Alexandros Daglis,
- Abstract要約: 現代のディープラーニング(DL)モデルは、トレーニングする専門的でハイエンドなノードの大規模なクラスタを必要とするサイズに成長しています。
このようなクラスタを設計してパフォーマンスと利用の両方を最大化します。
本稿では,並列化戦略と鍵クラスタリソースのプロビジョニングが分散DLトレーニングのパフォーマンスに与える影響を共同で研究する,総合的なクラスタ設計方法論とワークフローであるCOMETを紹介する。
- 参考スコア(独自算出の注目度): 42.514897110537596
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Modern Deep Learning (DL) models have grown to sizes requiring massive clusters of specialized, high-end nodes to train. Designing such clusters to maximize both performance and utilization--to amortize their steep cost--is a challenging task requiring careful balance of compute, memory, and network resources. Moreover, a plethora of each model's tuning knobs drastically affect the performance, with optimal values often depending on the underlying cluster's characteristics, which necessitates a complex cluster-workload co-design process. To facilitate the design space exploration of such massive DL training clusters, we introduce COMET, a holistic cluster design methodology and workflow to jointly study the impact of parallelization strategies and key cluster resource provisioning on the performance of distributed DL training. We develop a step-by-step process to establish a reusable and flexible methodology, and demonstrate its application with case studies of training large models on cluster configurations of variable compute, memory, and network resources. Our case studies demonstrate COMET's utility in identifying promising architectural optimization directions and guiding system designers in configuring key model and cluster parameters. To illustrate, cluster configuration comparisons identify performance differences of up to 7.7x and highlight performance optimization opportunities of up to 1.4x when employing memory expansion as an optimization technique.
- Abstract(参考訳): 現代のディープラーニング(DL)モデルは、トレーニングする専門的でハイエンドなノードの大規模なクラスタを必要とするサイズに成長しています。
このようなクラスタを設計してパフォーマンスと利用の両方を最大化する — コストの急激な削減 — 計算、メモリ、ネットワークリソースの慎重なバランスを必要とする、困難な作業です。
さらに、各モデルのチューニングノブのプレソラは、複雑なクラスタワークロードの共同設計プロセスを必要とするクラスタの特性に依存することが多いため、パフォーマンスに大きな影響を与えます。
このような巨大なDLトレーニングクラスタの設計空間の探索を容易にするために,並列化戦略とキークラスタリソースプロビジョニングが分散DLトレーニングのパフォーマンスに与える影響を共同で研究する,総合的なクラスタ設計方法論とワークフローであるCOMETを導入する。
再利用可能なフレキシブルな方法論を確立するためのステップバイステップのプロセスを開発し、可変計算、メモリ、ネットワークリソースのクラスタ構成に関する大規模モデルをトレーニングするケーススタディでその応用を実証する。
ケーススタディでは、COMETが有望なアーキテクチャ最適化の方向性を特定し、システムデザイナにキーモデルとクラスタパラメータの設定を指示する役割を実証している。
クラスタ構成比較では、最大7.7倍の性能差を識別し、メモリ拡張を最適化手法として使用する場合、最大1.4倍の性能最適化の機会を強調する。
関連論文リスト
- LCFed: An Efficient Clustered Federated Learning Framework for Heterogeneous Data [21.341280782748278]
クラスタ型フェデレーションラーニング(CFL)は、フェデレーションラーニング(FL)におけるデータ不均一性に起因するパフォーマンス上の課題に対処する。
既存のCFLアプローチは、クラスタ内の知識共有を厳密に制限し、クラスタ内のトレーニングとグローバル知識の統合を欠いている。
これらの課題に対処するための効率的なCFLフレームワークであるLCFedを提案する。
論文 参考訳(メタデータ) (2025-01-03T14:59:48Z) - Improving Autoregressive Visual Generation with Cluster-Oriented Token Prediction [52.09472099976885]
IARは改良された自己回帰型ビジュアルジェネレーション手法である。
バランスの取れたk平均クラスタリングアルゴリズムを用いたCodebook Rearrangement戦略を提案する。
また,クラスタ指向のクロスエントロピーロスを提案し,トークンの所在するクラスタを正確に予測する。
論文 参考訳(メタデータ) (2025-01-01T15:58:51Z) - Graph Cut-guided Maximal Coding Rate Reduction for Learning Image Embedding and Clustering [2.4503870408262354]
本稿では,構造化埋め込みとクラスタリングを共同で学習するための統合フレームワーク,CgMCR(Cut-guided Maximal Coding Rate Reduction)を提案する。
我々は、標準画像データセットと外部画像データセットの両方について広範な実験を行い、提案手法の有効性を実験的に検証した。
論文 参考訳(メタデータ) (2024-12-25T15:20:54Z) - A Survey on Inference Optimization Techniques for Mixture of Experts Models [50.40325411764262]
大規模Mixture of Experts(MoE)モデルは、条件計算によるモデル容量と計算効率の向上を提供する。
これらのモデル上で推論をデプロイし実行することは、計算資源、レイテンシ、エネルギー効率において大きな課題を示す。
本調査では,システムスタック全体にわたるMoEモデルの最適化手法について分析する。
論文 参考訳(メタデータ) (2024-12-18T14:11:15Z) - Towards Automated Model Design on Recommender Systems [21.421326082345136]
重量共有を利用して豊富な解空間を探索する新しいパラダイムを導入する。
共同設計の観点からは,2倍FLOPs効率,1.8倍エネルギー効率,1.5倍の性能向上を実現している。
論文 参考訳(メタデータ) (2024-11-12T06:03:47Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - Dynamic Clustering and Cluster Contrastive Learning for Unsupervised
Person Re-identification [29.167783500369442]
教師なしRe-ID手法は、ラベルのないデータから堅牢で差別的な特徴を学習することを目的としている。
本稿では,動的クラスタリングとクラスタコントラスト学習(DCCC)手法を提案する。
提案したDCCCの有効性を検証するために, 広く利用されている複数の公開データセットの実験を行った。
論文 参考訳(メタデータ) (2023-03-13T01:56:53Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Distributed Training of Deep Learning Models: A Taxonomic Perspective [11.924058430461216]
分散ディープラーニングシステム(DDLS)は、クラスタの分散リソースを利用することで、ディープニューラルネットワークモデルをトレーニングする。
私たちは、独立したマシンのクラスタでディープニューラルネットワークをトレーニングする際の、作業の基本原則に光を当てることを目指しています。
論文 参考訳(メタデータ) (2020-07-08T08:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。