論文の概要: Learning a Discrete Set of Optimal Allocation Rules in Queueing Systems
with Unknown Service Rates
- arxiv url: http://arxiv.org/abs/2202.02419v1
- Date: Fri, 4 Feb 2022 22:39:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-08 18:49:38.895108
- Title: Learning a Discrete Set of Optimal Allocation Rules in Queueing Systems
with Unknown Service Rates
- Title(参考訳): サービスレート未知の待ち行列システムにおける最適割当規則の離散集合の学習
- Authors: Saghar Adler, Mehrdad Moharrami and Vijay Subramanian
- Abstract要約: 本研究では,未知のサービスレートを持つ古典的Erlang-Bブロッキングシステムに対する学習に基づく受け入れ制御について検討する。
我々の問題では、常に許容されるポリシー(常に探索する)と絶対許容されないポリシー(即ち学習を終了する)の間に、確実な等価な制御スイッチがある。
すべてのサービスレートに対して、提案されたサービスレートが最適な行動を取ることを学ぶことを証明します。
- 参考スコア(独自算出の注目度): 1.4094389874355762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study learning-based admission control for a classical Erlang-B blocking
system with unknown service rate, i.e., an $M/M/k/k$ queueing system. At every
job arrival, a dispatcher decides to assign the job to an available server or
to block it. Every served job yields a fixed reward for the dispatcher, but it
also results in a cost per unit time of service. Our goal is to design a
dispatching policy that maximizes the long-term average reward for the
dispatcher based on observing the arrival times and the state of the system at
each arrival; critically, the dispatcher observes neither the service times nor
departure times.
We develop our learning-based dispatch scheme as a parametric learning
problem a'la self-tuning adaptive control. In our problem, certainty equivalent
control switches between an always admit policy (always explore) and a never
admit policy (immediately terminate learning), which is distinct from the
adaptive control literature. Our learning scheme then uses maximum likelihood
estimation followed by certainty equivalent control but with judicious use of
the always admit policy so that learning doesn't stall. We prove that for all
service rates, the proposed policy asymptotically learns to take the optimal
action. Further, we also present finite-time regret guarantees for our scheme.
The extreme contrast in the certainty equivalent optimal control policies leads
to difficulties in learning that show up in our regret bounds for different
parameter regimes. We explore this aspect in our simulations and also follow-up
sampling related questions for our continuous-time system.
- Abstract(参考訳): サービスレートが不明な古典的erlang-bブロッキングシステム(m/m/k/k$待ち行列システム)の学習に基づく入場制御について検討した。
ジョブが到着するたびに、ディスパッチはジョブを利用可能なサーバに割り当てるか、ブロックするかを決定する。
各サービスされたジョブはディスペンサーに一定の報酬を与えるが、結果としてサービスの単位時間当たりのコストも生じる。
本研究の目的は,到着時刻と到着時のシステム状態に基いて,発送者の長期平均報酬を最大化する発送ポリシーを設計することであり,要点として,発送者は発送時刻も発送時刻も監視しない。
パラメトリック学習問題 a'la self-tuning adaptive control として学習ベースのディスパッチスキームを開発した。
本問題では,適応型制御文献とは別物であるalways explore(always explore)とnever admit(immediately terminate learning(immediately terminate learning)の間で,同一の制御スイッチが与えられる。
学習方式では,最大確率推定と確実性等価な制御を併用するが,学習が停滞しないよう,常に許容する方針を巧みに活用する。
すべてのサービスレートにおいて、提案されたポリシーが漸近的に最適なアクションを取ることを学ぶことを証明します。
さらに,本スキームに対する有限時間後悔保証も提示する。
一定の等価な最適制御ポリシーの極端なコントラストは、異なるパラメータ体系に対する後悔の限界に現れる学習の難しさにつながります。
この側面をシミュレーションで検討し、連続時間システムに関する質問をフォローアップして分析する。
関連論文リスト
- Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - A stabilizing reinforcement learning approach for sampled systems with
partially unknown models [0.0]
純粋オンライン学習環境におけるシステム制御器閉ループの実用的安定性を保証する手法を提案する。
要求された結果を達成するため、我々は古典的な適応制御技術を採用する。
この方法は適応的なトラクション制御とクルーズ制御でテストされ、コストを大幅に削減することが判明した。
論文 参考訳(メタデータ) (2022-08-31T09:20:14Z) - Online Control of Unknown Time-Varying Dynamical Systems [48.75672260851758]
非確率制御モデルにおいて、未知のダイナミクスを持つ時間変化線形系のオンライン制御について検討する。
本研究では,反省行動 (SLS) や反省反応 (Youla) , 線形フィードバック政策 (線形フィードバックポリシー) といった一般的な政策のクラスに関して, 後悔すべき境界について検討する。
論文 参考訳(メタデータ) (2022-02-16T06:57:14Z) - Safety and Liveness Guarantees through Reach-Avoid Reinforcement
Learning [24.56889192688925]
リーチ・アビド最適制御問題は、自律ロボットシステムの安全性と生存性保証の中心である。
性能目標を用いた最適制御問題を概ね解くための強化学習手法の最近の成功は、その認証問題への適用を魅力的にしている。
最近の研究は、安全型問題を扱うための強化学習機械の拡張を約束しており、その目的は和ではなく、時間とともに最小限(または最大)である。
論文 参考訳(メタデータ) (2021-12-23T00:44:38Z) - Better than the Best: Gradient-based Improper Reinforcement Learning for
Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。
我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文 参考訳(メタデータ) (2021-05-01T10:18:34Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Queue-Learning: A Reinforcement Learning Approach for Providing Quality
of Service [1.8477401359673706]
servicerate controlは、サービスシステムにおける保証を提供する共通のメカニズムである。
本稿では,強化学習ベース(rlベース)サービスレートコントローラを提案する。
当社のコントローラは、システムのエンドツーエンドの遅延に関する明示的な確率的保証を提供します。
論文 参考訳(メタデータ) (2021-01-12T17:28:57Z) - Complementary Meta-Reinforcement Learning for Fault-Adaptive Control [1.8799681615947088]
適応的フォールトトレラント制御は、安全でない条件や破滅的な事象に対して障害が発生すると、性能が低下する。
本稿では,その制御方針を変化する条件に迅速に適応するメタ強化学習手法を提案する。
急激な断層下での航空機の燃料輸送システムに対する我々のアプローチを評価する。
論文 参考訳(メタデータ) (2020-09-26T16:30:53Z) - Anticipating the Long-Term Effect of Online Learning in Control [75.6527644813815]
AntLerは、学習を予想する学習ベースの制御法則の設計アルゴリズムである。
AntLer は確率 1 と任意に最適な解を近似することを示す。
論文 参考訳(メタデータ) (2020-07-24T07:00:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。