論文の概要: Solving the non-preemptive two queue polling model with generally
distributed service and switch-over durations and Poisson arrivals as a
Semi-Markov Decision Process
- arxiv url: http://arxiv.org/abs/2112.06578v1
- Date: Mon, 13 Dec 2021 11:40:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 18:20:45.209945
- Title: Solving the non-preemptive two queue polling model with generally
distributed service and switch-over durations and Poisson arrivals as a
Semi-Markov Decision Process
- Title(参考訳): 半マルコフ決定過程としての一般分散サービスと切替期間とポアソン到着を考慮した非規範的2つのキューポーリングモデルの解法
- Authors: Dylan Solms
- Abstract要約: スイッチオーバー期間を持つポーリングシステムは、いくつかの実用的な応用で有用なモデルである。
離散イベント動的システム(DEDS)に分類され、モデリングアプローチに同意する人は誰もいない。
本稿では, ポーリングシステムの半マルコフ決定過程(SMDP)を定式化し, さらなるモデリング能力を導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The polling system with switch-over durations is a useful model with several
practical applications. It is classified as a Discrete Event Dynamic System
(DEDS) for which no one agreed upon modelling approach exists. Furthermore,
DEDS are quite complex. To date, the most sophisticated approach to modelling
the polling system of interest has been a Continuous-time Markov Decision
Process (CTMDP). This paper presents a Semi-Markov Decision Process (SMDP)
formulation of the polling system as to introduce additional modelling power.
Such power comes at the expense of truncation errors and expensive numerical
integrals which naturally leads to the question of whether the SMDP policy
provides a worthwhile advantage. To further add to this scenario, it is shown
how sparsity can be exploited in the CTMDP to develop a computationally
efficient model. The discounted performance of the SMDP and CTMDP policies are
evaluated using a Semi-Markov Process simulator. The two policies are
accompanied by a heuristic policy specifically developed for this polling
system a well as an exhaustive service policy. Parametric and non-parametric
hypothesis tests are used to test whether differences in performance are
statistically significant.
- Abstract(参考訳): スイッチオーバー期間を持つポーリングシステムは、いくつかの実用的な応用で有用なモデルである。
離散イベント動的システム(DEDS)に分類され、モデリングアプローチに同意する人は誰もいない。
さらに、DEDSは非常に複雑です。
現在まで、ポーリングシステムをモデル化するための最も洗練されたアプローチは、連続時間マルコフ決定プロセス(CTMDP)である。
本稿では, ポーリングシステムの半マルコフ決定過程(SMDP)を定式化し, さらなるモデリング能力を導入する。
このようなパワーは、トラルニケートエラーと高価な数値積分を犠牲にされ、SMDPポリシーが価値ある利点を提供するかどうかという疑問に自然に導かれる。
このシナリオをさらに追加するために、計算効率の良いモデルを開発するために、CTMDPにおいて空間性をどのように活用できるかを示す。
SMDPおよびCTMDPポリシーの割引性能をセミマルコフプロセスシミュレータを用いて評価した。
この2つの政策には、このポーリングシステムのために特別に開発されたヒューリスティックな政策と、徹底的なサービス政策が伴っている。
パラメトリックおよび非パラメトリック仮説テストは、パフォーマンスの差が統計的に有意かどうかをテストするために使用される。
関連論文リスト
- Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Sample Complexity Characterization for Linear Contextual MDPs [67.79455646673762]
文脈決定プロセス(CMDP)は、遷移カーネルと報酬関数がコンテキスト変数によってインデックス付けされた異なるMDPで時間とともに変化できる強化学習のクラスを記述する。
CMDPは、時間とともに変化する環境で多くの現実世界のアプリケーションをモデル化するための重要なフレームワークとして機能する。
CMDPを2つの線形関数近似モデルで検討する: 文脈変化表現とすべての文脈に対する共通線形重み付きモデルIと、すべての文脈に対する共通表現と文脈変化線形重み付きモデルIIである。
論文 参考訳(メタデータ) (2024-02-05T03:25:04Z) - POMDP inference and robust solution via deep reinforcement learning: An
application to railway optimal maintenance [0.7046417074932257]
深部RLを用いたPMDPの推論とロバストな解法の組み合わせを提案する。
まず、すべての遷移モデルと観測モデルパラメータは、隠れマルコフモデルのマルコフ・チェイン・モンテ・カルロサンプリングによって共同で推論される。
パラメータが不確実なPOMDPは、パラメータ分布を領域ランダム化によって解に組み込んだ深部RL手法によって解決される。
論文 参考訳(メタデータ) (2023-07-16T15:44:58Z) - $K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic
Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。
私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。
他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文 参考訳(メタデータ) (2023-06-07T23:55:12Z) - Formal Controller Synthesis for Markov Jump Linear Systems with
Uncertain Dynamics [64.72260320446158]
マルコフジャンプ線形系に対する制御器の合成法を提案する。
本手法は,MJLSの離散(モードジャンピング)と連続(確率線形)の両方の挙動を捉える有限状態抽象化に基づいている。
本手法を複数の現実的なベンチマーク問題,特に温度制御と航空機の配送問題に適用する。
論文 参考訳(メタデータ) (2022-12-01T17:36:30Z) - Robust Anytime Learning of Markov Decision Processes [8.799182983019557]
データ駆動型アプリケーションでは、限られたデータから正確な確率を導き出すと統計的エラーが発生する。
不確実なMDP(uMDP)は正確な確率を必要としないが、遷移においていわゆる不確実性集合を用いる。
本稿では,ベイズ的推論スキームとロバストポリシーの計算を組み合わせた,頑健な任意の時間学習手法を提案する。
論文 参考訳(メタデータ) (2022-05-31T14:29:55Z) - Sampling-Based Robust Control of Autonomous Systems with Non-Gaussian
Noise [59.47042225257565]
雑音分布の明示的な表現に依存しない新しい計画法を提案する。
まず、連続系を離散状態モデルに抽象化し、状態間の確率的遷移によってノイズを捕捉する。
いわゆる区間マルコフ決定過程(iMDP)の遷移確率区間におけるこれらの境界を捉える。
論文 参考訳(メタデータ) (2021-10-25T06:18:55Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Learning and Solving Regular Decision Processes [15.533842336139067]
RDP(Regular Decision Processs)は、非マルコフ力学と報酬を用いてMDPを拡張するモデルである。
本研究では,履歴クラスタリングによる自動学習技術を活用して,MCTSを適応させることで,Mealyマシンを学習し,それを解決する。
論文 参考訳(メタデータ) (2020-03-02T16:36:16Z) - DDKSP: A Data-Driven Stochastic Programming Framework for Car-Sharing
Relocation Problem [17.440172040605354]
カーシェアリング再配置問題 (CSRP) を不確実な要求下で検討する。
この問題を解決するために、データ駆動カーネルプログラミング(DDKSP)と呼ばれる革新的なフレームワークが提案されている。
提案手法は純パラメトリックアプローチを3.72%,4.58%,11%で上回っている。
論文 参考訳(メタデータ) (2020-01-20T19:04:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。