論文の概要: Exploring the Pareto front of multi-objective COVID-19 mitigation
policies using reinforcement learning
- arxiv url: http://arxiv.org/abs/2204.05027v1
- Date: Mon, 11 Apr 2022 11:55:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 00:49:29.703330
- Title: Exploring the Pareto front of multi-objective COVID-19 mitigation
policies using reinforcement learning
- Title(参考訳): 強化学習を用いた多目的COVID-19緩和政策のPareto前線の探索
- Authors: Mathieu Reymond, Conor F. Hayes, Lander Willem, Roxana R\u{a}dulescu,
Steven Abrams, Diederik M. Roijers, Enda Howley, Patrick Mannion, Niel Hens,
Ann Now\'e, Pieter Libin
- Abstract要約: 感染症の発生は公衆衛生や社会プロセスに破壊的な影響を及ぼす可能性がある。
現在の研究は、病原体の攻撃率のような単一の目的でポリシーを最適化することに焦点を当てている。
深層多目的強化学習を適用し,最先端のアルゴリズムを用いて解の集合を学習する。
- 参考スコア(独自算出の注目度): 1.7056617973440933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Infectious disease outbreaks can have a disruptive impact on public health
and societal processes. As decision making in the context of epidemic
mitigation is hard, reinforcement learning provides a methodology to
automatically learn prevention strategies in combination with complex epidemic
models. Current research focuses on optimizing policies w.r.t. a single
objective, such as the pathogen's attack rate. However, as the mitigation of
epidemics involves distinct, and possibly conflicting criteria (i.a.,
prevalence, mortality, morbidity, cost), a multi-objective approach is
warranted to learn balanced policies. To lift this decision-making process to
real-world epidemic models, we apply deep multi-objective reinforcement
learning and build upon a state-of-the-art algorithm, Pareto Conditioned
Networks (PCN), to learn a set of solutions that approximates the Pareto front
of the decision problem. We consider the first wave of the Belgian COVID-19
epidemic, which was mitigated by a lockdown, and study different deconfinement
strategies, aiming to minimize both COVID-19 cases (i.e., infections and
hospitalizations) and the societal burden that is induced by the applied
mitigation measures. We contribute a multi-objective Markov decision process
that encapsulates the stochastic compartment model that was used to inform
policy makers during the COVID-19 epidemic. As these social mitigation measures
are implemented in a continuous action space that modulates the contact matrix
of the age-structured epidemic model, we extend PCN to this setting. We
evaluate the solution returned by PCN, and observe that it correctly learns to
reduce the social burden whenever the hospitalization rates are sufficiently
low. In this work, we thus show that multi-objective reinforcement learning is
attainable in complex epidemiological models and provides essential insights to
balance complex mitigation policies.
- Abstract(参考訳): 感染症の発生は公衆衛生や社会プロセスに破壊的な影響を及ぼす可能性がある。
流行緩和の文脈での意思決定が難しいため、強化学習は複雑な流行モデルと組み合わせて予防戦略を自動的に学習する手法を提供する。
現在の研究は、病原体の攻撃率など、単一の目的に対してポリシーを最適化することに焦点を当てている。
しかし、流行の緩和には異なる基準(死亡率、死亡率、死亡率、コスト)が伴うため、バランスの取れた政策を学ぶための多目的アプローチが求められる。
この意思決定プロセスを現実世界の流行モデルに高めるため、我々は深層多目的強化学習を適用し、最先端のアルゴリズムであるPareto Conditioned Networks (PCN) を構築し、意思決定問題のParetoを近似した一連のソリューションを学ぶ。
ロックダウンによって緩和されたベルギーの新型コロナウイルス感染症の第1波について検討し,感染や入院など)と緩和策によって引き起こされる社会的負担を最小化することを目的とした,さまざまな分離戦略を検討した。
新型コロナウイルスの感染拡大に伴う政策立案者への通知に使われた確率的コンパートメントモデルをカプセル化した多目的マルコフ決定プロセスに貢献する。
これらの社会的緩和策が, 年齢構造的流行モデルの接触行列を変調する連続的な行動空間で実施されるので, pcnをこの設定に拡張する。
我々は,PCNが返却したソリューションを評価し,入院率が十分に低い場合に社会負担を軽減することを正しく学習することを確認する。
本研究では,多目的強化学習が複雑な疫学モデルで実現可能であることを示し,複雑な緩和政策のバランスをとる上で不可欠な知見を提供する。
関連論文リスト
- Reinforcement Learning for Safe Occupancy Strategies in Educational
Spaces during an Epidemic [9.68145635795782]
本研究は、感染の最小化と教育環境における対人交流の最大化を両立させる戦略を開発するための強化学習(RL)に焦点を当てる。
感染拡大をシミュレートし,様々なRLアルゴリズムの探索を容易にする新しいツールであるSafeCampusを紹介する。
論文 参考訳(メタデータ) (2023-12-23T04:51:23Z) - Agent-Based Model: Simulating a Virus Expansion Based on the Acceptance
of Containment Measures [65.62256987706128]
比較疫学モデルは、疾患の状態に基づいて個人を分類する。
我々は、適応されたSEIRDモデルと市民のための意思決定モデルを組み合わせたABMアーキテクチャを提案する。
スペイン・ア・コルナにおけるSARS-CoV-2感染症の進行状況について検討した。
論文 参考訳(メタデータ) (2023-07-28T08:01:05Z) - Epidemic Control on a Large-Scale-Agent-Based Epidemiology Model using
Deep Deterministic Policy Gradient [0.7244731714427565]
ロックダウン、急激な予防接種プログラム、学校閉鎖、経済刺激は、肯定的または意図しない否定的な結果をもたらす可能性がある。
ラウンドトリップを通じて自動的に最適な介入をモデル化し決定するための現在の研究は、シミュレーション目標、スケール(数千人)、介入研究に適さないモデルタイプ、探索可能な介入戦略の数(離散対連続)によって制限されている。
我々は,大規模(100,000人)の疫学的エージェントに基づくシミュレーションに基づいて,DDPGに基づく政策最適化フレームワークを用いて,これらの課題に対処する。
論文 参考訳(メタデータ) (2023-04-10T09:26:07Z) - Evaluating COVID-19 vaccine allocation policies using Bayesian $m$-top
exploration [53.122045119395594]
マルチアーム・バンディット・フレームワークを用いてワクチンのアロケーション戦略を評価する新しい手法を提案する。
$m$-top Exploringにより、アルゴリズムは最高のユーティリティを期待する$m$ポリシーを学ぶことができる。
ベルギーのCOVID-19流行を個人モデルSTRIDEを用いて検討し、予防接種方針のセットを学習する。
論文 参考訳(メタデータ) (2023-01-30T12:22:30Z) - Reinforcement Learning with Heterogeneous Data: Estimation and Inference [84.72174994749305]
人口の不均一性に関する逐次的決定問題に対処するために,K-ヘテロ・マルコフ決定過程(K-ヘテロ・MDP)を導入する。
本稿では、ある政策の価値を推定するための自己クラスタ化政策評価(ACPE)と、ある政策クラスにおける最適な政策を推定するための自己クラスタ化政策イテレーション(ACPI)を提案する。
理論的な知見を裏付けるシミュレーションを行い,MIMIC-III標準データセットの実証的研究を行った。
論文 参考訳(メタデータ) (2022-01-31T20:58:47Z) - An Optimal Control Approach to Learning in SIDARTHE Epidemic model [67.22168759751541]
本研究では,疫病データから動的コンパートメンタルモデルの時間変化パラメータを学習するための一般的な手法を提案する。
我々はイタリアとフランスの疫病の進化を予報する。
論文 参考訳(メタデータ) (2020-10-28T10:58:59Z) - Semi-supervised Neural Networks solve an inverse problem for modeling
Covid-19 spread [61.9008166652035]
半教師付きニューラルネットワークを用いた新型コロナウイルスの感染拡大について検討した。
我々は、人口の受動的一部がウイルスの動態から分離されていると仮定する。
論文 参考訳(メタデータ) (2020-10-10T19:33:53Z) - Multi-Objective Model-based Reinforcement Learning for Infectious
Disease Control [19.022696762983017]
新型コロナウイルス(COVID-19)などの重症感染症が公衆衛生に大きな脅威をもたらす。
学校閉鎖や自宅待機命令などの厳格な規制措置は大きな効果がある一方で、経済的損失も大きい。
本稿では,データ駆動型意思決定の促進と長期的コストの最小化を目的とした多目的モデルに基づく強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-09T23:55:27Z) - Data-driven Simulation and Optimization for Covid-19 Exit Strategies [16.31545249131776]
コロナウイルスSARS-2の急速な普及は、世界中のほぼ全ての政府が悲劇に対応するために徹底的な対策を講じる大きな課題である。
我々は,疫学パラメータの深層学習推定を組み合わせたパンデミックシミュレーションと予測ツールキットを構築した。
論文 参考訳(メタデータ) (2020-06-12T11:18:25Z) - A Deep Q-learning/genetic Algorithms Based Novel Methodology For
Optimizing Covid-19 Pandemic Government Actions [63.669642197519934]
我々はSEIR疫学モデルを用いて、人口の時間とともにウイルスウイルスの進化を表現している。
報酬システムにより、アクションのシーケンス(統合、自己同化、二メートル距離、制限を取らない)を評価する。
どちらの意味でも、パンデミックの悪影響を抑えるために政府が取るべき行動を発見する上で、我々の方法論が有効な手段であることを実証する。
論文 参考訳(メタデータ) (2020-05-15T17:17:45Z) - Deep reinforcement learning for large-scale epidemic control [0.3694429692322631]
本研究では,パンデミックインフルエンザの予防戦略を自動学習するための深層強化学習手法について検討する。
我々のモデルは、強化学習技術が実現できるように、複雑さと計算効率のバランスをとる。
この実験により, 大規模状態空間を持つ複雑な疫学モデルにおいて, 深層強化学習を用いて緩和策を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-03-30T17:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。