論文の概要: A Scalable Deep Reinforcement Learning Model for Online Scheduling
Coflows of Multi-Stage Jobs for High Performance Computing
- arxiv url: http://arxiv.org/abs/2112.11055v1
- Date: Tue, 21 Dec 2021 09:36:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-22 21:26:51.169000
- Title: A Scalable Deep Reinforcement Learning Model for Online Scheduling
Coflows of Multi-Stage Jobs for High Performance Computing
- Title(参考訳): 高性能コンピューティングのための多段階ジョブのオンラインスケジューリングコフローのためのスケーラブルな深層強化学習モデル
- Authors: Xin Wang and Hong Shen
- Abstract要約: 多段階ジョブでは、各ジョブは複数のコフローで構成され、DAG(Directed Acyclic Graph)によって表現される。
本稿では,入力を処理する新しいパイプライン-DAGNNを提案し,新しいコフロースケジューリングアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 9.866286878494979
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Coflow is a recently proposed networking abstraction to help improve the
communication performance of data-parallel computing jobs. In multi-stage jobs,
each job consists of multiple coflows and is represented by a Directed Acyclic
Graph (DAG). Efficiently scheduling coflows is critical to improve the
data-parallel computing performance in data centers. Compared with hand-tuned
scheduling heuristics, existing work DeepWeave [1] utilizes Reinforcement
Learning (RL) framework to generate highly-efficient coflow scheduling policies
automatically. It employs a graph neural network (GNN) to encode the job
information in a set of embedding vectors, and feeds a flat embedding vector
containing the whole job information to the policy network. However, this
method has poor scalability as it is unable to cope with jobs represented by
DAGs of arbitrary sizes and shapes, which requires a large policy network for
processing a high-dimensional embedding vector that is difficult to train. In
this paper, we first utilize a directed acyclic graph neural network (DAGNN) to
process the input and propose a novel Pipelined-DAGNN, which can effectively
speed up the feature extraction process of the DAGNN. Next, we feed the
embedding sequence composed of schedulable coflows instead of a flat embedding
of all coflows to the policy network, and output a priority sequence, which
makes the size of the policy network depend on only the dimension of features
instead of the product of dimension and number of nodes in the job's
DAG.Furthermore, to improve the accuracy of the priority scheduling policy, we
incorporate the Self-Attention Mechanism into a deep RL model to capture the
interaction between different parts of the embedding sequence to make the
output priority scores relevant. Based on this model, we then develop a coflow
scheduling algorithm for online multi-stage jobs.
- Abstract(参考訳): coflowは、データ並列コンピューティングジョブの通信性能を改善するために最近提案されたネットワーク抽象化である。
多段階ジョブでは、各ジョブは複数のコフローで構成され、DAG(Directed Acyclic Graph)によって表現される。
コフローの効率的なスケジューリングは、データセンターにおけるデータ並列コンピューティングのパフォーマンス向上に不可欠である。
手動のスケジューリングヒューリスティックと比較すると、DeepWeave [1]は強化学習(RL)フレームワークを使用して、高効率なコフロースケジューリングポリシを自動的に生成する。
グラフニューラルネットワーク(GNN)を使用して、ジョブ情報を埋め込みベクトルのセットにエンコードし、ジョブ情報全体を含むフラットな埋め込みベクトルをポリシネットワークに供給する。
しかし、任意のサイズや形状のDAGで表されるジョブに対処できないためスケーラビリティが低いため、訓練が難しい高次元埋め込みベクトルを処理するには、大規模なポリシーネットワークが必要である。
本稿では、まず指向性非巡回グラフニューラルネットワーク(DAGNN)を用いて入力を処理し、DAGNNの特徴抽出プロセスを効果的に高速化する新しいパイプラインDAGNNを提案する。
Next, we feed the embedding sequence composed of schedulable coflows instead of a flat embedding of all coflows to the policy network, and output a priority sequence, which makes the size of the policy network depend on only the dimension of features instead of the product of dimension and number of nodes in the job's DAG.Furthermore, to improve the accuracy of the priority scheduling policy, we incorporate the Self-Attention Mechanism into a deep RL model to capture the interaction between different parts of the embedding sequence to make the output priority scores relevant.
このモデルに基づき,オンライン多段階ジョブのためのコフロースケジューリングアルゴリズムを開発した。
関連論文リスト
- Online Parallel Multi-Task Relationship Learning via Alternating Direction Method of Multipliers [37.859185005986056]
オンラインマルチタスク学習(OMTL)は、複数のタスク間の固有の関係を活用することで、ストリーミングデータ処理を強化する。
本研究では、分散コンピューティング環境に適した最近の最適化である交互方向乗算器法(ADMM)に基づく新しいOMTLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-09T10:20:13Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorFBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorFEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することができることを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - DCP: Learning Accelerator Dataflow for Neural Network via Propagation [52.06154296196845]
この研究は、DNN層の最適なデータフローを人間の努力なしに数秒で自動的に見つけるために、Dataflow Code Propagation (DCP)と呼ばれる効率的なデータ中心のアプローチを提案する。
DCPは、様々な最適化目標を最小化するために、望ましい勾配方向に向けてデータフローコードを効率的に更新する神経予測器を学習する。
例えば、追加のトレーニングデータを使用しないDCPは、数千のサンプルを使用して完全な検索を行うGAMAメソッドを超越している。
論文 参考訳(メタデータ) (2024-10-09T05:16:44Z) - Edge Generation Scheduling for DAG Tasks Using Deep Reinforcement
Learning [2.365237699556817]
直接非巡回グラフ(DAG)タスクは現在、複雑なアプリケーションをモデル化するためにリアルタイムドメインで採用されている。
エッジを反復的に生成することでDAG幅を最小化する新しいDAGスケジューリングフレームワークを提案する。
我々は,提案アルゴリズムの有効性を,最先端DAGスケジューリングと最適混合整数線形プログラミングベースラインとの比較により評価した。
論文 参考訳(メタデータ) (2023-08-28T15:19:18Z) - Scheduling Inference Workloads on Distributed Edge Clusters with
Reinforcement Learning [11.007816552466952]
本稿では,エッジネットワークにおける予測クエリを短時間でスケジューリングする問題に焦点をあてる。
シミュレーションにより,大規模ISPの現実的なネットワーク設定とワークロードにおけるいくつかのポリシーを解析する。
我々は、強化学習に基づくスケジューリングアルゴリズムASETを設計し、システム条件に応じてその決定を適応させることができる。
論文 参考訳(メタデータ) (2023-01-31T13:23:34Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Multi-objective Optimization of Clustering-based Scheduling for
Multi-workflow On Clouds Considering Fairness [4.021507306414546]
本稿では,資源割り当てのためのクラスタリングに基づくマルチワークフロースケジューリング手法を提案する。
実験結果から,提案手法の精度は,提案手法が比較アルゴリズムよりも優れており,全体の規模とコストと,個別の公平性を著しく損なうことなく性能が向上することが示された。
論文 参考訳(メタデータ) (2022-05-23T10:25:16Z) - JUMBO: Scalable Multi-task Bayesian Optimization using Offline Data [86.8949732640035]
追加データをクエリすることで制限をサイドステップするMBOアルゴリズムであるJUMBOを提案する。
GP-UCBに類似した条件下では, 応答が得られないことを示す。
実世界の2つの最適化問題に対する既存手法に対する性能改善を実証的に示す。
論文 参考訳(メタデータ) (2021-06-02T05:03:38Z) - Better than the Best: Gradient-based Improper Reinforcement Learning for
Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。
我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文 参考訳(メタデータ) (2021-05-01T10:18:34Z) - Deep Reinforcement Learning for Resource Constrained Multiclass
Scheduling in Wireless Networks [0.0]
セットアップでは、ランダムに到着するサービス要求に対応するために、利用可能な限られた帯域幅のリソースを割り当てます。
本稿では,Deep Setsと組み合わせた分布型Deep Deterministic Policy Gradient (DDPG)アルゴリズムを提案する。
提案アルゴリズムは, 合成データと実データの両方で検証し, 従来手法に対する一貫した利得を示す。
論文 参考訳(メタデータ) (2020-11-27T09:49:38Z) - Policy-GNN: Aggregation Optimization for Graph Neural Networks [60.50932472042379]
グラフニューラルネットワーク(GNN)は、局所的なグラフ構造をモデル化し、隣人からの情報を集約することで階層的なパターンを捉えることを目的としている。
複雑なグラフとスパースな特徴を与えられた各ノードに対して効果的なアグリゲーション戦略を開発することは難しい課題である。
本稿では,GNNのサンプリング手順とメッセージパッシングを複合学習プロセスにモデル化するメタ政治フレームワークであるPolicy-GNNを提案する。
論文 参考訳(メタデータ) (2020-06-26T17:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。