論文の概要: COMET: A Comprehensive Cluster Design Methodology for Distributed Deep Learning Training
- arxiv url: http://arxiv.org/abs/2211.16648v2
- Date: Thu, 14 Mar 2024 15:06:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-03-16 03:12:58.628461
- Title: COMET: A Comprehensive Cluster Design Methodology for Distributed Deep Learning Training
- Title(参考訳): COMET:分散ディープラーニング学習のための総合的クラスタ設計手法
- Authors: Divya Kiran Kadiyala, Saeed Rashidi, Taekyung Heo, Abhimanyu Rajeshkumar Bambhaniya, Tushar Krishna, Alexandros Daglis,
- Abstract要約: 現代のディープラーニング(DL)モデルは、トレーニングする専門的でハイエンドなノードの大規模なクラスタを必要とするサイズに成長しています。
このようなクラスタを設計してパフォーマンスと利用の両方を最大化します。
本稿では,並列化戦略と鍵クラスタリソースのプロビジョニングが分散DLトレーニングのパフォーマンスに与える影響を共同で研究する,総合的なクラスタ設計方法論とワークフローであるCOMETを紹介する。
- 参考スコア(独自算出の注目度): 42.514897110537596
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Modern Deep Learning (DL) models have grown to sizes requiring massive clusters of specialized, high-end nodes to train. Designing such clusters to maximize both performance and utilization--to amortize their steep cost--is a challenging task requiring careful balance of compute, memory, and network resources. Moreover, a plethora of each model's tuning knobs drastically affect the performance, with optimal values often depending on the underlying cluster's characteristics, which necessitates a complex cluster-workload co-design process. To facilitate the design space exploration of such massive DL training clusters, we introduce COMET, a holistic cluster design methodology and workflow to jointly study the impact of parallelization strategies and key cluster resource provisioning on the performance of distributed DL training. We develop a step-by-step process to establish a reusable and flexible methodology, and demonstrate its application with case studies of training large models on cluster configurations of variable compute, memory, and network resources. Our case studies demonstrate COMET's utility in identifying promising architectural optimization directions and guiding system designers in configuring key model and cluster parameters. To illustrate, cluster configuration comparisons identify performance differences of up to 7.7x and highlight performance optimization opportunities of up to 1.4x when employing memory expansion as an optimization technique.
- Abstract(参考訳): 現代のディープラーニング(DL)モデルは、トレーニングする専門的でハイエンドなノードの大規模なクラスタを必要とするサイズに成長しています。
このようなクラスタを設計してパフォーマンスと利用の両方を最大化する — コストの急激な削減 — 計算、メモリ、ネットワークリソースの慎重なバランスを必要とする、困難な作業です。
さらに、各モデルのチューニングノブのプレソラは、複雑なクラスタワークロードの共同設計プロセスを必要とするクラスタの特性に依存することが多いため、パフォーマンスに大きな影響を与えます。
このような巨大なDLトレーニングクラスタの設計空間の探索を容易にするために,並列化戦略とキークラスタリソースプロビジョニングが分散DLトレーニングのパフォーマンスに与える影響を共同で研究する,総合的なクラスタ設計方法論とワークフローであるCOMETを導入する。
再利用可能なフレキシブルな方法論を確立するためのステップバイステップのプロセスを開発し、可変計算、メモリ、ネットワークリソースのクラスタ構成に関する大規模モデルをトレーニングするケーススタディでその応用を実証する。
ケーススタディでは、COMETが有望なアーキテクチャ最適化の方向性を特定し、システムデザイナにキーモデルとクラスタパラメータの設定を指示する役割を実証している。
クラスタ構成比較では、最大7.7倍の性能差を識別し、メモリ拡張を最適化手法として使用する場合、最大1.4倍の性能最適化の機会を強調する。
関連論文リスト
- High-Throughput LLM inference on Heterogeneous Clusters [6.11367906161332]
異種クラスタ上での大規模言語モデル(LLM)推論には,2つの大きな課題がある。
さまざまなインスタンスの異なる処理能力を十分に考慮した,インスタンス間のリクエストスケジュールの新たなメカニズムが提案されている。
大規模な実験により、提案されたスケジューラは、2つの異種クラスタ上で122.5%と33.6%のスループットを向上させることが示された。
論文 参考訳(メタデータ) (2025-04-18T08:59:11Z) - Towards Learnable Anchor for Deep Multi-View Clustering [49.767879678193005]
本稿では,線形時間でクラスタリングを行うDeep Multi-view Anchor Clustering (DMAC)モデルを提案する。
最適なアンカーを用いて、全サンプルグラフを計算し、クラスタリングのための識別的埋め込みを導出する。
いくつかのデータセットの実験では、最先端の競合に比べてDMACの性能と効率が優れていることが示されている。
論文 参考訳(メタデータ) (2025-03-16T09:38:11Z) - LCFed: An Efficient Clustered Federated Learning Framework for Heterogeneous Data [21.341280782748278]
クラスタ型フェデレーションラーニング(CFL)は、フェデレーションラーニング(FL)におけるデータ不均一性に起因するパフォーマンス上の課題に対処する。
既存のCFLアプローチは、クラスタ内の知識共有を厳密に制限し、クラスタ内のトレーニングとグローバル知識の統合を欠いている。
これらの課題に対処するための効率的なCFLフレームワークであるLCFedを提案する。
論文 参考訳(メタデータ) (2025-01-03T14:59:48Z) - Improving Autoregressive Visual Generation with Cluster-Oriented Token Prediction [52.09472099976885]
IARは、LLMベースのビジュアル生成モデルのトレーニング効率と生成品質を向上させる改良された自動回帰ビジュアル生成方法である。
提案手法は,モデルのトレーニング効率と性能を100Mから1.4Bに継続的に向上させ,同じFIDを達成しながらトレーニング時間を半減させる。
論文 参考訳(メタデータ) (2025-01-01T15:58:51Z) - Graph Cut-guided Maximal Coding Rate Reduction for Learning Image Embedding and Clustering [2.4503870408262354]
本稿では,構造化埋め込みとクラスタリングを共同で学習するための統合フレームワーク,CgMCR(Cut-guided Maximal Coding Rate Reduction)を提案する。
我々は、標準画像データセットと外部画像データセットの両方について広範な実験を行い、提案手法の有効性を実験的に検証した。
論文 参考訳(メタデータ) (2024-12-25T15:20:54Z) - A Survey on Inference Optimization Techniques for Mixture of Experts Models [50.40325411764262]
大規模Mixture of Experts(MoE)モデルは、条件計算によるモデル容量と計算効率の向上を提供する。
これらのモデル上で推論をデプロイし実行することは、計算資源、レイテンシ、エネルギー効率において大きな課題を示す。
本調査では,システムスタック全体にわたるMoEモデルの最適化手法について分析する。
論文 参考訳(メタデータ) (2024-12-18T14:11:15Z) - Towards Automated Model Design on Recommender Systems [21.421326082345136]
重量共有を利用して豊富な解空間を探索する新しいパラダイムを導入する。
共同設計の観点からは,2倍FLOPs効率,1.8倍エネルギー効率,1.5倍の性能向上を実現している。
論文 参考訳(メタデータ) (2024-11-12T06:03:47Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - A Generalized Framework for Predictive Clustering and Optimization [18.06697544912383]
クラスタリングは強力で広く使われているデータサイエンスツールです。
本稿では,予測クラスタリングのための一般化最適化フレームワークを定義する。
また,大域的最適化のためにMILP(mixed-integer linear programming)を利用する共同最適化手法を提案する。
論文 参考訳(メタデータ) (2023-05-07T19:56:51Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Dynamic Clustering and Cluster Contrastive Learning for Unsupervised
Person Re-identification [29.167783500369442]
教師なしRe-ID手法は、ラベルのないデータから堅牢で差別的な特徴を学習することを目的としている。
本稿では,動的クラスタリングとクラスタコントラスト学習(DCCC)手法を提案する。
提案したDCCCの有効性を検証するために, 広く利用されている複数の公開データセットの実験を行った。
論文 参考訳(メタデータ) (2023-03-13T01:56:53Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - AMP: Automatically Finding Model Parallel Strategies with Heterogeneity
Awareness [10.20441432750275]
我々は,モデル並列実行戦略を自動的に導出するAMPを開発する。
パブリッククラウドから人気のモデルとクラスタのセットアップでAMPを評価します。
AMPは、最先端のモデル並列システムよりも1.54倍と1.77倍高いスループットの戦略を見つける。
論文 参考訳(メタデータ) (2022-10-13T18:55:28Z) - Deep Attention-guided Graph Clustering with Dual Self-supervision [49.040136530379094]
デュアル・セルフ・スーパービジョン(DAGC)を用いたディープアテンション誘導グラフクラスタリング法を提案する。
我々は,三重項Kulback-Leibler分散損失を持つソフトな自己スーパービジョン戦略と,擬似的な監督損失を持つハードな自己スーパービジョン戦略からなる二重自己スーパービジョンソリューションを開発する。
提案手法は6つのベンチマークデータセットにおける最先端の手法より一貫して優れている。
論文 参考訳(メタデータ) (2021-11-10T06:53:03Z) - Distributed Training of Deep Learning Models: A Taxonomic Perspective [11.924058430461216]
分散ディープラーニングシステム(DDLS)は、クラスタの分散リソースを利用することで、ディープニューラルネットワークモデルをトレーニングする。
私たちは、独立したマシンのクラスタでディープニューラルネットワークをトレーニングする際の、作業の基本原則に光を当てることを目指しています。
論文 参考訳(メタデータ) (2020-07-08T08:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。