Fugu-MT 論文翻訳(概要): Rosella: A Self-Driving Distributed Scheduler for Heterogeneous Clusters

論文の概要: Rosella: A Self-Driving Distributed Scheduler for Heterogeneous Clusters

arxiv url: http://arxiv.org/abs/2010.15206v3
Date: Wed, 27 Oct 2021 00:12:54 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-02 06:23:30.236879
Title: Rosella: A Self-Driving Distributed Scheduler for Heterogeneous Clusters
Title（参考訳）: Rosella: 異種クラスタのための自動分散スケジューリング
Authors: Qiong Wu, Zhenming Liu
Abstract要約: 異種クラスタにおけるタスクスケジューリングのための,新たな自律分散アプローチであるRosellaを紹介する。 Rosellaは自動的に計算環境を学習し、スケジューリングポリシーをリアルタイムで調整する。 32ノードのAWSクラスタ上で、さまざまなワークロードでRosellaを評価します。
参考スコア（独自算出の注目度）: 7.206919625027208
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large-scale interactive web services and advanced AI applications make sophisticated decisions in real-time, based on executing a massive amount of computation tasks on thousands of servers. Task schedulers, which often operate in heterogeneous and volatile environments, require high throughput, i.e., scheduling millions of tasks per second, and low latency, i.e., incurring minimal scheduling delays for millisecond-level tasks. Scheduling is further complicated by other users' workloads in a shared system, other background activities, and the diverse hardware configurations inside datacenters. We present Rosella, a new self-driving, distributed approach for task scheduling in heterogeneous clusters. Rosella automatically learns the compute environment and adjusts its scheduling policy in real-time. The solution provides high throughput and low latency simultaneously because it runs in parallel on multiple machines with minimum coordination and only performs simple operations for each scheduling decision. Our learning module monitors total system load and uses the information to dynamically determine optimal estimation strategy for the backends' compute-power. Rosella generalizes power-of-two-choice algorithms to handle heterogeneous workers, reducing the max queue length of O(log n) obtained by prior algorithms to O(log log n). We evaluate Rosella with a variety of workloads on a 32-node AWS cluster. Experimental results show that Rosella significantly reduces task response time, and adapts to environment changes quickly.
Abstract（参考訳）: 大規模な対話型Webサービスと高度なAIアプリケーションは、数千のサーバ上で大量の計算タスクを実行することに基づいて、リアルタイムに洗練された決定を行う。タスクスケジューラは不均一で不安定な環境で動作し、高いスループット、すなわち毎秒数百万のタスクのスケジューリング、低レイテンシ、すなわちミリ秒レベルのタスクのスケジュール遅延の最小化を必要とする。スケジューリングは、共有システム内の他のユーザのワークロード、他のバックグラウンドアクティビティ、データセンタ内のさまざまなハードウェア構成によってさらに複雑になる。我々は,ヘテロジニアスクラスタにおけるタスクスケジューリングのための,新たな自動運転分散アプローチであるrosellaを提案する。 Rosellaは自動的に計算環境を学習し、スケジューリングポリシーをリアルタイムで調整する。このソリューションは、最小限の調整で複数のマシンで並列に動作し、スケジュール決定ごとに単純な操作のみを実行するため、高いスループットと低レイテンシを同時に提供する。学習モジュールはシステム全体の負荷を監視し,バックエンドの計算能力の最適推定戦略を動的に決定する。ロゼラは不均一な労働者を扱うために二分アルゴリズムを一般化し、以前のアルゴリズムで得られたO(log n)の最大キュー長をO(log log n)に短縮する。 32ノードのAWSクラスタ上で、さまざまなワークロードでRosellaを評価します。実験の結果,rosellaはタスク応答時間を大幅に削減し,環境変化に迅速に適応できることが判明した。

関連論文リスト

High-Throughput LLM inference on Heterogeneous Clusters [6.11367906161332]
異種クラスタ上での大規模言語モデル(LLM)推論には,2つの大きな課題がある。さまざまなインスタンスの異なる処理能力を十分に考慮した,インスタンス間のリクエストスケジュールの新たなメカニズムが提案されている。大規模な実験により、提案されたスケジューラは、2つの異種クラスタ上で122.5%と33.6%のスループットを向上させることが示された。
論文参考訳（メタデータ） (2025-04-18T08:59:11Z)
Is the GPU Half-Empty or Half-Full? Practical Scheduling Techniques for LLMs [3.7758841366694353]
文献および実用サービスシステムからスケジューリング手法を調査する。文献からのスケジューラは、しばしば優れたパフォーマンスを得るが、かなりの複雑さをもたらす。対照的に、実際のデプロイメントにおけるスケジューラは、しばしばテーブルに簡単にパフォーマンス向上を残しますが、実装、デプロイ、設定が容易です。
論文参考訳（メタデータ） (2024-10-23T13:05:46Z)
Toward Smart Scheduling in Tapis [1.0377683220196874]
本稿では,Tapisにおけるインテリジェントなジョブスケジューリング機能の開発について紹介する。我々は、異なるHPCシステムとキュー上でジョブの待ち時間を予測すること。私たちの最初の結果セットは、既存のオプションリストから最適なシステムを選択するのに使用できる回帰としてこの問題を提起しました。
論文参考訳（メタデータ） (2024-08-05T20:01:31Z)
Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse Multi-DNN Workloads [65.47816359465155]
複数のディープニューラルネットワーク(DNN)を並列に実行することは、両エッジデバイスで新たなワークロードとなっている。スパースマルチDNNスケジューリングに静的なスケジューラパターンと動的スケジューラ情報の両方を利用する新しいスケジューラDystaを提案する。提案手法は, 遅延制約違反率を最大10%削減し, 平均正規化ターンアラウンド時間で約4倍に向上する。
論文参考訳（メタデータ） (2023-10-17T09:25:17Z)
Partitioning Distributed Compute Jobs with Reinforcement Learning and Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文参考訳（メタデータ） (2023-01-31T17:41:07Z)
Learning Coordination Policies over Heterogeneous Graphs for Human-Robot Teams via Recurrent Neural Schedule Propagation [0.0]
HybridNetは、人間のロボットチームをスケジューリングするためのディープラーニングベースのフレームワークである。マルチラウンド環境で混在するロボットチームのための仮想スケジューリング環境を開発する。
論文参考訳（メタデータ） (2023-01-30T20:42:06Z)
NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。 LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文参考訳（メタデータ） (2022-06-28T20:13:40Z)
GCNScheduler: Scheduling Distributed Computing Applications using Graph Convolutional Networks [12.284934135116515]
グラフ畳み込み型ネットワークベーススケジューラ(GCNScheduler)を提案する。タスク間データ依存関係構造とネットワーク設定を慎重に入力グラフに統合することにより、GCNSchedulerは所定の目的のためにタスクを効率的にスケジュールすることができる。従来のHEFTアルゴリズムよりもマインパンが良く、スループット指向のHEFTとほぼ同じスループットであることを示す。
論文参考訳（メタデータ） (2021-10-22T01:54:10Z)
Scheduling in Parallel Finite Buffer Systems: Optimal Decisions under Delayed Feedback [29.177402567437206]
本稿では,遅延認識の限られた情報の下で並列キューシステムにおけるスケジューリング決定をキャプチャする部分観測可能(PO)モデルを提案する。得られたポリシーが他の限られた情報スケジューリング戦略より優れていることを数値的に示す。本稿では,Kaggleが提供するネットワークデータを用いてリアルタイム並列処理を最適化する方法を示す。
論文参考訳（メタデータ） (2021-09-17T13:45:02Z)
Better than the Best: Gradient-based Improper Reinforcement Learning for Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文参考訳（メタデータ） (2021-05-01T10:18:34Z)
Tailored Learning-Based Scheduling for Kubernetes-Oriented Edge-Cloud System [54.588242387136376]
エッジクラウドシステムのための学習ベースのスケジューリングフレームワークkaisを紹介する。まず,分散した要求ディスパッチに対応するために,協調型マルチエージェントアクタ-クリティックアルゴリズムを設計する。次に,多種多様なシステムスケールと構造について,グラフニューラルネットワークを用いてシステム状態情報を埋め込む。第3に、リクエストディスパッチとサービスオーケストレーションを調和させる2段階のスケジューリングメカニズムを採用します。
論文参考訳（メタデータ） (2021-01-17T03:45:25Z)
Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文参考訳（メタデータ） (2020-05-27T01:10:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。