論文の概要: Learning a Discrete Set of Optimal Allocation Rules in a Queueing System
with Unknown Service Rate
- arxiv url: http://arxiv.org/abs/2202.02419v2
- Date: Thu, 27 Jul 2023 22:56:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-31 17:01:40.269135
- Title: Learning a Discrete Set of Optimal Allocation Rules in a Queueing System
with Unknown Service Rate
- Title(参考訳): 未知のサービスレートを有する待ち行列システムにおける最適割当ルールの離散セットの学習
- Authors: Saghar Adler, Mehrdad Moharrami and Vijay Subramanian
- Abstract要約: 入場率とサービス率の不明なシステムの入場制御について検討する。
私たちのモデルでは、ジョブが到着するたびに、ディスペンサーがジョブを利用可能なサーバに割り当てるか、ブロックするかを決めます。
我々の目標は、ディスパッチの長期平均報酬を最大化するディスパッチポリシーを設計することです。
- 参考スコア(独自算出の注目度): 1.4094389874355762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by the wide range of modern applications of the Erlang-B blocking
model beyond communication networks and call centers to sizing and pricing in
design production systems, messaging systems, and app-based parking systems, we
study admission control for such a system but with unknown arrival and service
rates. In our model, at every job arrival, a dispatcher decides to assign the
job to an available server or block it. Every served job yields a fixed reward
for the dispatcher, but it also results in a cost per unit time of service. Our
goal is to design a dispatching policy that maximizes the long-term average
reward for the dispatcher based on observing only the arrival times and the
state of the system at each arrival that reflects a realistic sampling of such
systems. Critically, the dispatcher observes neither the service times nor
departure times so that standard reinforcement learning-based approaches that
use reward signals do not apply. Hence, we develop our learning-based dispatch
scheme as a parametric learning problem a'la self-tuning adaptive control. In
our problem, certainty equivalent control switches between an always admit if
room policy (explore infinitely often) and a never admit policy (immediately
terminate learning), which is distinct from the adaptive control literature.
Hence, our learning scheme judiciously uses the always admit if room policy so
that learning doesn't stall. We prove that for all service rates, the proposed
policy asymptotically learns to take the optimal action and present finite-time
regret guarantees. The extreme contrast in the certainty equivalent optimal
control policies leads to difficulties in learning that show up in our regret
bounds for different parameter regimes: constant regret in one regime versus
regret growing logarithmically in the other.
- Abstract(参考訳): デザインプロダクションシステム,メッセージングシステム,アプリベースの駐車システムにおいて,Erlang-Bブロッキングモデルが通信ネットワークやコールセンタを越えて,サイズや価格設定など,幅広い近代的な応用によって動機付けられ,そのようなシステムに対する入場制御について検討する。
私たちのモデルでは、ジョブが到着するたびに、ディスペンサーがジョブを利用可能なサーバに割り当てるか、ブロックするかを決めます。
各サービスされたジョブはディスペンサーに一定の報酬を与えるが、結果としてサービスの単位時間当たりのコストも生じる。
本研究の目的は,現実的なシステムサンプリングを反映した,到着時刻と到着時のシステム状態のみを観測し,ディスパッチの長期平均報酬を最大化するディスパッチポリシを設計することである。
批判的に、ディスパッチはサービス時間も出発時間も観察しないので、報奨信号を使用する標準的な強化学習ベースアプローチは適用されない。
そこで我々は,パラメトリック学習問題として,学習に基づくディスパッチ方式を開発した。
本問題では,部屋政策(無限に頻繁に爆発する)と無許可政策(即ち学習を終了させる)を常に認めるものと,適応的制御文学とは別物とする同一の制御を切り替える。
したがって、我々の学習スキームは、学習が行き詰まることのないように、常に肯定的な部屋ポリシーを使う。
全てのサービスレートに対して、提案されたポリシーは漸近的に最適な行動をとり、有限時間後悔の保証を示すことを学習する。
一定の等価な最適制御ポリシーの極端なコントラストは、異なるパラメーターレジームに対する後悔の限界に現れる学習の困難をもたらす:一方のレジームにおける絶え間ない後悔ともう一方のレジームにおける後悔の対等な成長。
関連論文リスト
- Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - A stabilizing reinforcement learning approach for sampled systems with
partially unknown models [0.0]
純粋オンライン学習環境におけるシステム制御器閉ループの実用的安定性を保証する手法を提案する。
要求された結果を達成するため、我々は古典的な適応制御技術を採用する。
この方法は適応的なトラクション制御とクルーズ制御でテストされ、コストを大幅に削減することが判明した。
論文 参考訳(メタデータ) (2022-08-31T09:20:14Z) - Online Control of Unknown Time-Varying Dynamical Systems [48.75672260851758]
非確率制御モデルにおいて、未知のダイナミクスを持つ時間変化線形系のオンライン制御について検討する。
本研究では,反省行動 (SLS) や反省反応 (Youla) , 線形フィードバック政策 (線形フィードバックポリシー) といった一般的な政策のクラスに関して, 後悔すべき境界について検討する。
論文 参考訳(メタデータ) (2022-02-16T06:57:14Z) - Safety and Liveness Guarantees through Reach-Avoid Reinforcement
Learning [24.56889192688925]
リーチ・アビド最適制御問題は、自律ロボットシステムの安全性と生存性保証の中心である。
性能目標を用いた最適制御問題を概ね解くための強化学習手法の最近の成功は、その認証問題への適用を魅力的にしている。
最近の研究は、安全型問題を扱うための強化学習機械の拡張を約束しており、その目的は和ではなく、時間とともに最小限(または最大)である。
論文 参考訳(メタデータ) (2021-12-23T00:44:38Z) - Better than the Best: Gradient-based Improper Reinforcement Learning for
Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。
我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文 参考訳(メタデータ) (2021-05-01T10:18:34Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Queue-Learning: A Reinforcement Learning Approach for Providing Quality
of Service [1.8477401359673706]
servicerate controlは、サービスシステムにおける保証を提供する共通のメカニズムである。
本稿では,強化学習ベース(rlベース)サービスレートコントローラを提案する。
当社のコントローラは、システムのエンドツーエンドの遅延に関する明示的な確率的保証を提供します。
論文 参考訳(メタデータ) (2021-01-12T17:28:57Z) - Complementary Meta-Reinforcement Learning for Fault-Adaptive Control [1.8799681615947088]
適応的フォールトトレラント制御は、安全でない条件や破滅的な事象に対して障害が発生すると、性能が低下する。
本稿では,その制御方針を変化する条件に迅速に適応するメタ強化学習手法を提案する。
急激な断層下での航空機の燃料輸送システムに対する我々のアプローチを評価する。
論文 参考訳(メタデータ) (2020-09-26T16:30:53Z) - Anticipating the Long-Term Effect of Online Learning in Control [75.6527644813815]
AntLerは、学習を予想する学習ベースの制御法則の設計アルゴリズムである。
AntLer は確率 1 と任意に最適な解を近似することを示す。
論文 参考訳(メタデータ) (2020-07-24T07:00:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。