論文の概要: Learning to Score: Tuning Cluster Schedulers through Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.10545v1
- Date: Wed, 11 Mar 2026 08:54:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.857609
- Title: Learning to Score: Tuning Cluster Schedulers through Reinforcement Learning
- Title(参考訳): スコアの学習:強化学習によるクラスタスケジューラのチューニング
- Authors: Martin Asenov, Qiwen Deng, Gingfung Yeung, Adam Barker,
- Abstract要約: 本稿では,スケジューラスコアリングアルゴリズムにおける重み付け学習のための強化学習手法を提案する。
私たちのアプローチは、パーセンテージ改善報酬、フレームスタッキング、ドメイン情報の制限に基づいています。
提案手法は,実験室をベースとしたサーバレスシナリオにおいて,最大性能のベースラインと比較して,固定重量と12%と比較して平均33%パフォーマンスが向上することを示した。
- 参考スコア(独自算出の注目度): 1.8584311789183756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficiently allocating incoming jobs to nodes in large-scale clusters can lead to substantial improvements in both cluster utilization and job performance. In order to allocate incoming jobs, cluster schedulers usually rely on a set of scoring functions to rank feasible nodes. Results from individual scoring functions are usually weighted equally, which could lead to sub-optimal deployments as the one-size-fits-all solution does not take into account the characteristics of each workload. Tuning the weights of scoring functions, however, requires expert knowledge and is computationally expensive. This paper proposes a reinforcement learning approach for learning the weights in scheduler scoring algorithms with the overall objective of improving the end-to-end performance of jobs for a given cluster. Our approach is based on percentage improvement reward, frame-stacking, and limiting domain information. We propose a percentage improvement reward to address the objective of multi-step parameter tuning. The inclusion of frame-stacking allows for carrying information across an optimization experiment. Limiting domain information prevents overfitting and improves performance in unseen clusters and workloads. The policy is trained on different combinations of workloads and cluster setups. We demonstrate the proposed approach improves performance on average by 33\% compared to fixed weights and 12\% compared to the best-performing baseline in a lab-based serverless scenario.
- Abstract(参考訳): 大規模クラスタのノードに着信ジョブを効率的に割り当てることによって、クラスタの利用率とジョブのパフォーマンスが大幅に向上する可能性がある。
入ってくるジョブを割り当てるために、クラスタスケジューラは通常、実行可能なノードをランク付けするためにスコアリング関数のセットに依存する。
個々のスコアリング関数の結果は通常、均等に重み付けされるため、各ワークロードの特性を考慮していないため、最適以下のデプロイメントにつながる可能性がある。
しかし、スコアリング関数の重みを調整するには専門家の知識が必要であり、計算コストがかかる。
本稿では,スケジューラスコアリングアルゴリズムの重み付け学習のための強化学習手法を提案する。
私たちのアプローチは、パーセンテージ改善報酬、フレームスタッキング、ドメイン情報の制限に基づいています。
マルチステップパラメータチューニングの目的に対応するために,パーセンテージ改善報酬を提案する。
フレームスタッキングを組み込むことで、最適化実験を通じて情報を運ぶことができる。
ドメイン情報の制限は、目に見えないクラスタやワークロードのパフォーマンスの過度な適合を防ぎ、改善する。
このポリシーは、ワークロードとクラスタのセットアップの異なる組み合わせに基づいて訓練されている。
提案手法は,実験室をベースとしたサーバレスシナリオにおいて,最大性能のベースラインに比べて平均33倍,12倍の性能向上を実現している。
関連論文リスト
- Harnessing Data from Clustered LQR Systems: Personalized and Collaborative Policy Optimization [4.770545528276722]
我々は、パーソナライズされたポリシーを学ぶために、クラスタリングがデータ駆動制御にどのように使われるかを示す。
私たちの仕事は、パーソナライズされたポリシーを学ぶために、データ駆動制御でクラスタリングをどのように使用できるかを明らかにする最初のものです。
論文 参考訳(メタデータ) (2025-11-21T18:45:53Z) - End-to-end Learnable Clustering for Intent Learning in Recommendation [54.157784572994316]
我々は、アンダーラインELCRecと呼ばれる新しい意図学習手法を提案する。
振る舞い表現学習をUnderlineEnd-to-end UnderlineLearnable UnderlineClusteringフレームワークに統合する。
1億3000万ページビューの産業レコメンデーションシステムに本手法をデプロイし,有望な結果を得る。
論文 参考訳(メタデータ) (2024-01-11T15:22:55Z) - Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。
提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。
フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文 参考訳(メタデータ) (2023-08-13T18:12:28Z) - Personalized Federated Learning with Feature Alignment and Classifier
Collaboration [13.320381377599245]
データの不均一性は、フェデレートラーニングにおける最も難しい問題の1つです。
ディープニューラルネットワークベースのタスクにおけるそのようなアプローチの1つは、共有された特徴表現を採用し、クライアントごとにカスタマイズされた分類子ヘッドを学ぶことである。
本研究では,グローバルなセマンティックな知識を活用して,より優れた表現を学習することで,ローカル・グローバルな特徴アライメントを実現する。
論文 参考訳(メタデータ) (2023-06-20T19:58:58Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。