論文の概要: COVID-19 Pandemic Cyclic Lockdown Optimization Using Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2009.04647v1
- Date: Thu, 10 Sep 2020 02:51:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 03:00:36.624396
- Title: COVID-19 Pandemic Cyclic Lockdown Optimization Using Reinforcement
Learning
- Title(参考訳): 強化学習を用いた新型コロナウイルスパンデミックサイクルロックダウン最適化
- Authors: Mauricio Arango, Lyudmil Pelov
- Abstract要約: 本研究は, 周期的ロックダウンを最適化するための強化学習(RL)の利用について検討する。
同時に2つの目標が使用された: ICUベッドの閾値を超えるICUベッドの使用過剰を最小化する公衆衛生目標と、ロックダウンに費やされる時間を最小化する社会経済目標である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work examines the use of reinforcement learning (RL) to optimize cyclic
lockdowns, which is one of the methods available for control of the COVID-19
pandemic. The problem is structured as an optimal control system for tracking a
reference value, corresponding to the maximum usage level of a critical
resource, such as ICU beds. However, instead of using conventional optimal
control methods, RL is used to find optimal control policies. A framework was
developed to calculate optimal cyclic lockdown timings using an RL-based on-off
controller. The RL-based controller is implemented as an RL agent that
interacts with an epidemic simulator, implemented as an extended SEIR epidemic
model. The RL agent learns a policy function that produces an optimal sequence
of open/lockdown decisions such that goals specified in the RL reward function
are optimized. Two concurrent goals were used: the first one is a public health
goal that minimizes overshoots of ICU bed usage above an ICU bed threshold, and
the second one is a socio-economic goal that minimizes the time spent under
lockdowns. It is assumed that cyclic lockdowns are considered as a temporary
alternative to extended lockdowns when a region faces imminent danger of
overpassing resource capacity limits and when imposing an extended lockdown
would cause severe social and economic consequences due to lack of necessary
economic resources to support its affected population during an extended
lockdown.
- Abstract(参考訳): 本研究は、新型コロナウイルスのパンデミックを抑えるために利用可能な方法の1つであるサイクリックロックダウンを最適化するために強化学習(RL)を使用することを検討する。
この問題は、ICUベッドのようなクリティカルリソースの最大使用レベルに対応する基準値を追跡するための最適制御系として構成されている。
しかし、従来の最適制御法の代わりに、RLは最適制御ポリシーを見つけるために用いられる。
RL型オンオフコントローラを用いた最適循環ロックダウンタイミングを計算するためのフレームワークを開発した。
RLベースのコントローラは、拡張SEIR流行モデルとして実装された流行シミュレータと相互作用するRLエージェントとして実装される。
RLエージェントは、RL報酬関数で指定されたゴールが最適化されるように、オープン/ロックダウン決定の最適なシーケンスを生成するポリシー関数を学習する。
1つは公衆衛生の目標、もう1つはicuベッドの閾値を超えるicuベッド使用量のオーバーシュートを最小限に抑えること、もう1つはロックダウンで費やす時間を最小化する社会経済的目標である。
循環的ロックダウンは、ある地域が資源容量制限を超過する危険に迫られたとき、また、拡張的なロックダウンを課すと、影響のある人口を支えるために必要な経済資源が不足し、深刻な社会的経済的影響を引き起こす場合、拡張ロックダウンの一時的な代替手段であると考えられている。
関連論文リスト
- Comparison of Model Predictive Control and Proximal Policy Optimization for a 1-DOF Helicopter System [0.7499722271664147]
本研究は,Quanser Aero 2システムに適用された深層強化学習(DRL)アルゴリズムであるモデル予測制御(MPC)とPPOの比較分析を行う。
PPOは上昇時間と適応性に優れており、迅速な応答と適応性を必要とするアプリケーションには有望なアプローチである。
論文 参考訳(メタデータ) (2024-08-28T08:35:34Z) - Safety Optimized Reinforcement Learning via Multi-Objective Policy
Optimization [3.425378723819911]
セーフ強化学習(Safe reinforcement learning, Safe RL)とは、RLアルゴリズムが制約を犯すのを防ぐ技術である。
本稿では,多目的ポリシー最適化フレームワークに基づく新しいモデルフリーなSafe RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-23T08:58:38Z) - Deployable Reinforcement Learning with Variable Control Rate [14.838483990647697]
可変制御率を持つ強化学習(RL)の変種を提案する。
このアプローチでは、ポリシーは、エージェントが取るべきアクションと、そのアクションに関連する時間ステップの期間を決定する。
ニュートンキネマティクスを用いたエージェントを駆動する概念実証シミュレーションによりSEACの有効性を示す。
論文 参考訳(メタデータ) (2024-01-17T15:40:11Z) - Reaching the Limit in Autonomous Racing: Optimal Control versus
Reinforcement Learning [66.10854214036605]
ロボット工学における中心的な問題は、アジャイルなモバイルロボットの制御システムをどうやって設計するかである。
本稿では、強化学習(RL)で訓練されたニューラルネットワークコントローラが最適制御(OC)法より優れていることを示す。
その結果、アジャイルドローンを最大性能に押し上げることができ、最大加速速度は重力加速度の12倍以上、ピーク速度は時速108kmに達しました。
論文 参考訳(メタデータ) (2023-10-17T02:40:27Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement
Learning [78.2286146954051]
LCRLは未知決定プロセス(MDP)上でのモデルフリー強化学習(RL)アルゴリズムを実装している
本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2022-09-21T13:21:00Z) - Reachability Constrained Reinforcement Learning [6.5158195776494]
本稿では、到達可能性解析を用いて最大の実現可能性集合を特徴付けるリーチビリティCRL(RCRL)法を提案する。
また、マルチ時間スケール近似理論を用いて、提案アルゴリズムが局所最適化に収束することを証明する。
安全な制御ジャムやセーフティガイムなどの異なるベンチマークにおける実験結果は、学習可能なセット、最適基準における性能、RCRLの制約満足度などを検証する。
論文 参考訳(メタデータ) (2022-05-16T09:32:45Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。