論文の概要: Tailored Learning-Based Scheduling for Kubernetes-Oriented Edge-Cloud
System
- arxiv url: http://arxiv.org/abs/2101.06582v1
- Date: Sun, 17 Jan 2021 03:45:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-27 20:14:41.538622
- Title: Tailored Learning-Based Scheduling for Kubernetes-Oriented Edge-Cloud
System
- Title(参考訳): Kubernetes指向エッジクラウドシステムのための階層型学習ベーススケジューリング
- Authors: Yiwen Han and Shihao Shen and Xiaofei Wang and Shiqiang Wang and
Victor C.M. Leung
- Abstract要約: エッジクラウドシステムのための学習ベースのスケジューリングフレームワークkaisを紹介する。
まず,分散した要求ディスパッチに対応するために,協調型マルチエージェントアクタ-クリティックアルゴリズムを設計する。
次に,多種多様なシステムスケールと構造について,グラフニューラルネットワークを用いてシステム状態情報を埋め込む。
第3に、リクエストディスパッチとサービスオーケストレーションを調和させる2段階のスケジューリングメカニズムを採用します。
- 参考スコア(独自算出の注目度): 54.588242387136376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Kubernetes (k8s) has the potential to merge the distributed edge and the
cloud but lacks a scheduling framework specifically for edge-cloud systems.
Besides, the hierarchical distribution of heterogeneous resources and the
complex dependencies among requests and resources make the modeling and
scheduling of k8s-oriented edge-cloud systems particularly sophisticated. In
this paper, we introduce KaiS, a learning-based scheduling framework for such
edge-cloud systems to improve the long-term throughput rate of request
processing. First, we design a coordinated multi-agent actor-critic algorithm
to cater to decentralized request dispatch and dynamic dispatch spaces within
the edge cluster. Second, for diverse system scales and structures, we use
graph neural networks to embed system state information, and combine the
embedding results with multiple policy networks to reduce the orchestration
dimensionality by stepwise scheduling. Finally, we adopt a two-time-scale
scheduling mechanism to harmonize request dispatch and service orchestration,
and present the implementation design of deploying the above algorithms
compatible with native k8s components. Experiments using real workload traces
show that KaiS can successfully learn appropriate scheduling policies,
irrespective of request arrival patterns and system scales. Moreover, KaiS can
enhance the average system throughput rate by 14.3% while reducing scheduling
cost by 34.7% compared to baselines.
- Abstract(参考訳): Kubernetes(k8s)は、分散エッジとクラウドをマージする可能性があるが、エッジクラウドシステムに特化したスケジューリングフレームワークがない。
さらに、ヘテロジニアスリソースの階層的な分布と要求とリソース間の複雑な依存関係により、k8s指向のエッジクラウドシステムのモデリングとスケジューリングが特に高度になる。
本稿では,このようなエッジクラウドシステムのための学習ベースのスケジューリングフレームワークkaisを導入し,要求処理の長期スループットを向上させる。
まず,エッジクラスタ内での分散要求ディスパッチと動的ディスパッチ空間を実現するために,協調型マルチエージェントアクタ批判アルゴリズムを設計する。
第2に,多様なシステムスケールと構造について,グラフニューラルネットワークを用いてシステム状態情報を埋め込み,その埋め込み結果を複数のポリシネットワークと組み合わせることで,ステップワイズスケジューリングによるオーケストレーションの次元性を低減する。
最後に、リクエストディスパッチとサービスオーケストレーションを調和させる2段階のスケジューリング機構を採用し、上記のアルゴリズムをネイティブk8sコンポーネントと互換性のある実装設計を提案する。
実際のワークロードトレースを使用した実験では,要求到着パターンやシステムスケールに関わらず,KaiSが適切なスケジューリングポリシを学習できることが示されている。
さらにkaisは、ベースラインと比較してスケジューリングコストを34.7%削減しながら、平均システムスループットを14.3%向上させることができる。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - CoRaiS: Lightweight Real-Time Scheduler for Multi-Edge Cooperative Computing [32.99310493126955]
複数のエッジの制約されたリソースを強力なリソースプールに結合するマルチエッジ協調コンピューティングは、大きな利益をもたらす可能性がある。
しかし、大量の異種資源の構成とスケジューリング戦略の欠如により、マルチエッジコンピューティングシステムのモデリングと協調が特に複雑になる。
本稿では、まず、複雑なハードウェア構成を保護し、異種エッジで異なるサービス機能を再定義するシステムレベルの状態評価モデルを提案する。
論文 参考訳(メタデータ) (2024-02-04T07:21:45Z) - GPU Cluster Scheduling for Network-Sensitive Deep Learning [19.344426053952464]
本稿では分散DL(DDL)ワークロードのための新しいGPUクラスタスケジューラを提案する。
我々のスケジューラは、(i)ジョブ配置と統合を容易にする古典的な遅延スケジューリングアルゴリズム、(ii)ネットワークに敏感なジョブプリエンプション戦略、(iii)遅延タイマーを効果的に遅延スケジューリングするために最適化する「自動チューニング」メカニズムの3つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2024-01-29T19:06:08Z) - Client Orchestration and Cost-Efficient Joint Optimization for
NOMA-Enabled Hierarchical Federated Learning [55.49099125128281]
半同期クラウドモデルアグリゲーションの下で非直交多重アクセス(NOMA)を実現するHFLシステムを提案する。
提案手法は,HFLの性能改善と総コスト削減に関するベンチマークよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-03T13:34:44Z) - EGRC-Net: Embedding-induced Graph Refinement Clustering Network [66.44293190793294]
埋め込みによるグラフリファインメントクラスタリングネットワーク (EGRC-Net) という新しいグラフクラスタリングネットワークを提案する。
EGRC-Netは学習した埋め込みを利用して初期グラフを適応的に洗練し、クラスタリング性能を向上させる。
提案手法はいくつかの最先端手法より一貫して優れている。
論文 参考訳(メタデータ) (2022-11-19T09:08:43Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Scheduling in Parallel Finite Buffer Systems: Optimal Decisions under
Delayed Feedback [29.177402567437206]
本稿では,遅延認識の限られた情報の下で並列キューシステムにおけるスケジューリング決定をキャプチャする部分観測可能(PO)モデルを提案する。
得られたポリシーが他の限られた情報スケジューリング戦略より優れていることを数値的に示す。
本稿では,Kaggleが提供するネットワークデータを用いてリアルタイム並列処理を最適化する方法を示す。
論文 参考訳(メタデータ) (2021-09-17T13:45:02Z) - BAGUA: Scaling up Distributed Learning with System Relaxations [31.500494636704598]
BAGUAは分散データ並列トレーニングのための新しい通信フレームワークである。
新しいシステム設計によって、BAGUAは様々な最先端の分散学習アルゴリズムを実装し拡張する能力を持つ。
最大16台のマシンを持つ運用クラスタでは、BAGUAは、エンドツーエンドのトレーニング時間において、PyTorch-DDP、Horovod、BytePSを上回ります。
論文 参考訳(メタデータ) (2021-07-03T21:27:45Z) - Better than the Best: Gradient-based Improper Reinforcement Learning for
Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。
我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文 参考訳(メタデータ) (2021-05-01T10:18:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。