論文の概要: CASSINI: Network-Aware Job Scheduling in Machine Learning Clusters
- arxiv url: http://arxiv.org/abs/2308.00852v1
- Date: Tue, 1 Aug 2023 21:34:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-03 14:28:48.997027
- Title: CASSINI: Network-Aware Job Scheduling in Machine Learning Clusters
- Title(参考訳): CASSINI: 機械学習クラスタにおけるネットワーク対応ジョブスケジューリング
- Authors: Sudarsanan Rajasekaran (1), Manya Ghobadi (1), Aditya Akella (2) ((1)
Massachusetts Institute of Technology, (2) UT Austin)
- Abstract要約: 機械学習クラスタのためのネットワーク対応ジョブスケジューラであるCASSINIを提案する。
CASSINIはジョブの平均完了時間とテール完了時間をそれぞれ1.6倍と2.5倍に改善することを示した。
また、CASSINIはクラスタ内のECNマーク付きパケットの数を最大33倍に削減することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present CASSINI, a network-aware job scheduler for machine learning (ML)
clusters. CASSINI introduces a novel geometric abstraction to consider the
communication pattern of different jobs while placing them on network links. To
do so, CASSINI uses an affinity graph that finds a series of time-shift values
to adjust the communication phases of a subset of jobs, such that the
communication patterns of jobs sharing the same network link are interleaved
with each other. Experiments with 13 common ML models on a 24-server testbed
demonstrate that compared to the state-of-the-art ML schedulers, CASSINI
improves the average and tail completion time of jobs by up to 1.6x and 2.5x,
respectively. Moreover, we show that CASSINI reduces the number of ECN marked
packets in the cluster by up to 33x.
- Abstract(参考訳): 機械学習(ML)クラスタのためのネットワーク対応ジョブスケジューラであるCASSINIを提案する。
CASSINIは、異なるジョブの通信パターンをネットワークリンク上に配置しながら考慮する、新しい幾何学的抽象化を導入した。
そのため、カッシーニは、一連の時間シフト値を見つけて、同じネットワークリンクを共有するジョブの通信パターンを相互にインターリーブするように、ジョブのサブセットの通信フェーズを調整する親和性グラフを使用する。
24サーバテストベッド上での13の共通MLモデルによる実験では、最先端のMLスケジューラと比較して、CASSINIはジョブの平均完了時間とテール完了時間を最大1.6倍、2.5倍改善している。
さらに、CASSINIはクラスタ内のECNマーク付きパケットの数を最大33倍に削減することを示した。
関連論文リスト
- Asynchronous Multi-Server Federated Learning for Geo-Distributed Clients [4.6792910030704515]
フェデレートラーニング(FL)システムは、複数のクライアントが単一のサーバで中間モデルの重みを同期的に交換することで、機械学習モデルを反復的にトレーニングすることができる。
このようなFLシステムのスケーラビリティは、同期通信によるサーバアイドル時間と、ひとつのサーバがボトルネックになるリスクの2つの要因によって制限することができる。
本稿では,完全に非同期な新しいFLアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-06-03T15:29:46Z) - Timely Asynchronous Hierarchical Federated Learning: Age of Convergence [59.96266198512243]
クライアント-エッジ-クラウドフレームワークを用いた非同期階層型フェデレーション学習環境について検討する。
クライアントはトレーニングされたパラメータをエッジサーバと交換し、ローカルに集約されたモデルを更新する。
各クライアントの目標は、クライアントのタイムラインを維持しながら、グローバルモデルに収束することだ。
論文 参考訳(メタデータ) (2023-06-21T17:39:16Z) - Structured Cooperative Learning with Graphical Model Priors [98.53322192624594]
ローカルデータに制限のある分散デバイス上で、さまざまなタスクに対してパーソナライズされたモデルをトレーニングする方法を研究する。
本稿では,デバイス間の協調グラフをグラフィカルモデルにより生成する「構造化協調学習(SCooL)」を提案する。
SCooLを評価し,既存の分散学習手法と比較した。
論文 参考訳(メタデータ) (2023-06-16T02:41:31Z) - AUTOSHAPE: An Autoencoder-Shapelet Approach for Time Series Clustering [38.98898783270346]
非教師的手法でシェイプレットを決定するための新しいオートエンコーダ・シェープレット手法(AUTOSHAPE)を提案する。
オートエンコーダは、高品質なシェイプレットを学習するために特別に設計されている。
我々はAUTOSHAPEについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-08-06T06:00:45Z) - Deep Image Clustering with Contrastive Learning and Multi-scale Graph
Convolutional Networks [58.868899595936476]
コントラスト学習とマルチスケールグラフ畳み込みネットワーク(IcicleGCN)を用いた画像クラスタリング手法を提案する。
複数の画像データセットの実験は、最先端のIcicleGCNよりも優れたクラスタリング性能を示している。
論文 参考訳(メタデータ) (2022-07-14T19:16:56Z) - Towards Similarity-Aware Time-Series Classification [51.2400839966489]
時系列データマイニングの基本課題である時系列分類(TSC)について検討する。
グラフニューラルネットワーク(GNN)を用いて類似情報をモデル化するフレームワークであるSimTSCを提案する。
論文 参考訳(メタデータ) (2022-01-05T02:14:57Z) - Temporal Graph Network Embedding with Causal Anonymous Walks
Representations [54.05212871508062]
本稿では,時間グラフネットワークに基づく動的ネットワーク表現学習のための新しいアプローチを提案する。
評価のために、時間的ネットワーク埋め込みの評価のためのベンチマークパイプラインを提供する。
欧州の大手銀行が提供した実世界のダウンストリームグラフ機械学習タスクにおいて、我々のモデルの適用性と優れた性能を示す。
論文 参考訳(メタデータ) (2021-08-19T15:39:52Z) - SALA: Soft Assignment Local Aggregation for Parameter Efficient 3D
Semantic Segmentation [65.96170587706148]
3dポイントクラウドセマンティクスセグメンテーションのためのパラメータ効率の良いネットワークを生成するポイントローカルアグリゲーション関数の設計に着目する。
グリッド型アグリゲーション関数における学習可能な隣り合わせソフトアロケーションの利用について検討する。
論文 参考訳(メタデータ) (2020-12-29T20:16:37Z) - SCNet: Training Inference Sample Consistency for Instance Segmentation [15.963615360741356]
本稿では、トレーニング時のサンプルのIoU分布が推論時のそれに近いことを確認するために、サンプル一貫性ネットワーク(SCNet)と呼ばれるアーキテクチャを提案する。
標準データセットを用いた実験では,ボックスAP,マスクAP,推論速度など,複数の評価指標に対して提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-12-18T10:26:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。