論文の概要: Scheduling Servers with Stochastic Bilinear Rewards
- arxiv url: http://arxiv.org/abs/2112.06362v3
- Date: Sun, 1 Sep 2024 07:45:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-07 07:30:16.617355
- Title: Scheduling Servers with Stochastic Bilinear Rewards
- Title(参考訳): 確率的双線形リワードを用いたスケジューリングサーバ
- Authors: Jung-hun Kim, Milan Vojnovic,
- Abstract要約: システム最適化問題は、マルチクラス、マルチサーバキューシステムスケジューリングで発生する。
本稿では,報酬の限界コストを付加した重み付き比例フェアアロケーション基準に基づくスケジューリングアルゴリズムを提案する。
我々のアルゴリズムは,時間的地平線に関して,サブ線形後悔とサブ線形平均保持コスト(および待ち時間境界)を考慮し,待ち行列システムの安定性を保証する。
- 参考スコア(独自算出の注目度): 7.519872646378837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address a control system optimization problem that arises in multi-class, multi-server queueing system scheduling with uncertainty. In this scenario, jobs incur holding costs while awaiting completion, and job-server assignments yield observable stochastic rewards with unknown mean values. The rewards for job-server assignments are assumed to follow a bilinear model with respect to features characterizing jobs and servers. Our objective is regret minimization, aiming to maximize the cumulative reward of job-server assignments over a time horizon while maintaining a bounded total job holding cost, thus ensuring queueing system stability. This problem is motivated by applications in computing services and online platforms. To address this problem, we propose a scheduling algorithm based on weighted proportional fair allocation criteria augmented with marginal costs for reward maximization, incorporating a bandit strategy. Our algorithm achieves sub-linear regret and sub-linear mean holding cost (and queue length bound) with respect to the time horizon, thus guaranteeing queueing system stability. Additionally, we establish stability conditions for distributed iterative algorithms for computing allocations, which are relevant to large-scale system applications. Finally, we validate the efficiency of our algorithm through numerical experiments.
- Abstract(参考訳): 本稿では,不確実性のあるマルチクラスマルチサーバキューシステムスケジューリングにおいて発生する制御系最適化問題に対処する。
このシナリオでは、ジョブは完了を待っている間に保持コストを発生させ、ジョブサーバの割り当ては、未知の平均値で観測可能な確率的な報酬をもたらす。
ジョブサーバ割り当ての報酬は、ジョブやサーバを特徴付ける機能に関して、双線形モデルに従うと仮定される。
我々の目的は,ジョブサーバ割り当ての累積報酬を時間的地平線上で最大化しつつ,総ジョブ保持コストを抑え,キューシステムの安定性を確保することを目的とした,後悔の最小化である。
この問題は、コンピューティングサービスやオンラインプラットフォームのアプリケーションによって動機付けられている。
そこで本稿では,報酬の最大化に要する限界コストを加味した重み付き比例公平割当基準に基づくスケジューリングアルゴリズムを提案する。
提案アルゴリズムは,時間的地平線に対する線形平均保持コスト(および待ち行列長境界)を減らし,待ち行列システムの安定性を保証している。
さらに,大規模システムアプリケーションに関係のある分散反復アルゴリズムのアロケーションに対する安定性条件を確立する。
最後に,数値実験によりアルゴリズムの有効性を検証した。
関連論文リスト
- Efficient Reinforcement Learning for Routing Jobs in Heterogeneous Queueing Systems [21.944723061337267]
我々は、中央キューに到着するジョブをヘテロジニアスサーバのシステムに効率的にルーティングする問題を考察する。
均質なシステムとは異なり、キュー長が一定のしきい値を超えた場合、ジョブを遅いサーバにルーティングするしきい値ポリシーは、ワンファストワンスローの2サーバシステムに最適であることが知られている。
本稿では,低次元ソフトしきい値パラメータ化を用いた効率的なポリシー勾配に基づくアルゴリズムであるACHQを提案する。
論文 参考訳(メタデータ) (2024-02-02T05:22:41Z) - Online Optimization for Randomized Network Resource Allocation with Long-Term Constraints [0.610240618821149]
簡単な通信網における最適オンラインリソース予約問題について検討する。
そこで我々は,オンラインサドルポイントアルゴリズムを提案し,関連するK-ベンチマークの後悔に対する上限を提示する。
論文 参考訳(メタデータ) (2023-05-24T20:47:17Z) - A Unifying Framework for Online Optimization with Long-Term Constraints [62.35194099438855]
我々は,意思決定者が長期的制約の対象となる一連の意思決定をしなければならないオンライン学習問題について検討する。
目標は、全報酬を最大化し、同時に、$T$ラウンド全体で小さな累積違反を達成することである。
本稿では,この一般クラス問題に対して,未知のモデルに基づいて報酬と制約が選択された場合と,各ラウンドで敵が選択した場合の双方において,最良世界型アルゴリズムを提示する。
論文 参考訳(メタデータ) (2022-09-15T16:59:19Z) - Optimal Admission Control for Multiclass Queues with Time-Varying
Arrival Rates via State Abstraction [16.99621896314678]
我々は、意思決定者がランダムに到着したタスクを受け入れ、拒否する必要があるという、新しいキュー問題を考える。
目的は、処理されたタスクの総価格が有限の地平線上で最大になるように、どのタスクを受け入れるかを決定することである。
最適値関数は特定の構造を持ち、ハイブリッドMDPを正確に解くことができることを示す。
論文 参考訳(メタデータ) (2022-03-14T12:38:13Z) - Safe Online Bid Optimization with Return-On-Investment and Budget
Constraints subject to Uncertainty [87.81197574939355]
最適化問題と学習問題の両方について検討する。
我々は、潜在的に線形な数の制約違反を犠牲にして、サブ線形後悔を保証するアルゴリズム、すなわちGCBを提供する。
より興味深いことに、我々はGCB_safe(psi,phi)というアルゴリズムを提供し、サブ線形擬似回帰と安全性w.h.p.の両方を、耐性 psi と phi を受け入れるコストで保証する。
論文 参考訳(メタデータ) (2022-01-18T17:24:20Z) - Learning to Schedule [3.5408022972081685]
本稿では,ジョブが生み出す累積保持コストを最小限に抑えるための学習・スケジューリングアルゴリズムを提案する。
各タイムスロットにおいて、サーバはシステムに残されているジョブのランダム保持コストを受信しながらジョブを処理できる。
論文 参考訳(メタデータ) (2021-05-28T08:04:06Z) - Better than the Best: Gradient-based Improper Reinforcement Learning for
Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。
我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文 参考訳(メタデータ) (2021-05-01T10:18:34Z) - Tailored Learning-Based Scheduling for Kubernetes-Oriented Edge-Cloud
System [54.588242387136376]
エッジクラウドシステムのための学習ベースのスケジューリングフレームワークkaisを紹介する。
まず,分散した要求ディスパッチに対応するために,協調型マルチエージェントアクタ-クリティックアルゴリズムを設計する。
次に,多種多様なシステムスケールと構造について,グラフニューラルネットワークを用いてシステム状態情報を埋め込む。
第3に、リクエストディスパッチとサービスオーケストレーションを調和させる2段階のスケジューリングメカニズムを採用します。
論文 参考訳(メタデータ) (2021-01-17T03:45:25Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - An Online Algorithm for Computation Offloading in Non-Stationary
Environments [12.843328612860244]
計算タスクをアウトソーシングするユーザ機器に複数のサーバが利用可能なタスクオフロードシナリオにおいて,レイテンシの問題を考慮する。
無線リンクの時間的動的性質と計算資源の可用性を考慮し、サーバ選択をマルチアームバンディット(MAB)問題としてモデル化する。
本研究では,不確実性に直面した楽観主義の原理に基づく新しいオンライン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T07:00:47Z) - Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal
Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。
都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文 参考訳(メタデータ) (2020-05-27T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。