論文の概要: Planning Multiple Epidemic Interventions with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2301.12802v2
- Date: Tue, 16 May 2023 17:09:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 18:57:57.951245
- Title: Planning Multiple Epidemic Interventions with Reinforcement Learning
- Title(参考訳): 強化学習による多重流行介入の計画
- Authors: Anh Mai and Nikunj Gupta and Azza Abouzied and Dennis Shasha
- Abstract要約: 最適な計画は、寿命の最小限の損失、病気の重荷、経済的コストによる流行を抑制することである。
最適な計画を見つけることは、現実的な設定における難解な計算問題である。
我々は、最先端のアクター-批評家強化学習アルゴリズムを、全体的なコストを最小化する計画の探索に適用する。
- 参考スコア(独自算出の注目度): 7.51289645756884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Combating an epidemic entails finding a plan that describes when and how to
apply different interventions, such as mask-wearing mandates, vaccinations,
school or workplace closures. An optimal plan will curb an epidemic with
minimal loss of life, disease burden, and economic cost. Finding an optimal
plan is an intractable computational problem in realistic settings.
Policy-makers, however, would greatly benefit from tools that can efficiently
search for plans that minimize disease and economic costs especially when
considering multiple possible interventions over a continuous and complex
action space given a continuous and equally complex state space. We formulate
this problem as a Markov decision process. Our formulation is unique in its
ability to represent multiple continuous interventions over any disease model
defined by ordinary differential equations. We illustrate how to effectively
apply state-of-the-art actor-critic reinforcement learning algorithms (PPO and
SAC) to search for plans that minimize overall costs. We empirically evaluate
the learning performance of these algorithms and compare their performance to
hand-crafted baselines that mimic plans constructed by policy-makers. Our
method outperforms baselines. Our work confirms the viability of a
computational approach to support policy-makers
- Abstract(参考訳): 流行と戦うには、マスク着用義務、ワクチン接種、学校または職場の閉鎖など、さまざまな介入をいつどのように適用するかを記述する計画を見つけることが必要となる。
最善の計画では、命の喪失、病気の負担、経済的コストを最小限に抑えることができる。
最適な計画を見つけることは現実的な設定における難解な計算問題である。
しかし、政策立案者は、特に連続的かつ等しく複雑な状態空間が与えられた連続的かつ複雑な行動空間に対する複数の介入を考える場合、病気や経済的コストを最小限に抑える計画を効率的に探すことができるツールの恩恵を大いに受けるだろう。
この問題をマルコフ決定過程として定式化する。
我々の定式化は、通常の微分方程式によって定義されるあらゆる疾患モデルに対する複数の連続的な介入を表現する能力においてユニークなものである。
本稿では,PPO と SAC を有効に適用して,全体的なコストを最小化する計画の探索を行う方法について述べる。
我々は,これらのアルゴリズムの学習性能を実証的に評価し,その性能を政策立案者による計画の模倣した手作りベースラインと比較する。
私たちの手法はベースラインを上回ります。
我々の研究は,政策立案者支援のための計算手法の有効性を確認した
関連論文リスト
- Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Epidemic Control on a Large-Scale-Agent-Based Epidemiology Model using
Deep Deterministic Policy Gradient [0.7244731714427565]
ロックダウン、急激な予防接種プログラム、学校閉鎖、経済刺激は、肯定的または意図しない否定的な結果をもたらす可能性がある。
ラウンドトリップを通じて自動的に最適な介入をモデル化し決定するための現在の研究は、シミュレーション目標、スケール(数千人)、介入研究に適さないモデルタイプ、探索可能な介入戦略の数(離散対連続)によって制限されている。
我々は,大規模(100,000人)の疫学的エージェントに基づくシミュレーションに基づいて,DDPGに基づく政策最適化フレームワークを用いて,これらの課題に対処する。
論文 参考訳(メタデータ) (2023-04-10T09:26:07Z) - Policy Optimization for Personalized Interventions in Behavioral Health [8.10897203067601]
デジタルプラットフォームを通じて提供される行動的健康介入は、健康結果を大幅に改善する可能性がある。
患者に対するパーソナライズされた介入を最適化して長期的効果を最大化する問題について検討した。
患者システムの状態空間を個別のレベルに分解するDecompPIをダブする新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-21T21:42:03Z) - Evaluating COVID-19 vaccine allocation policies using Bayesian $m$-top
exploration [53.122045119395594]
マルチアーム・バンディット・フレームワークを用いてワクチンのアロケーション戦略を評価する新しい手法を提案する。
$m$-top Exploringにより、アルゴリズムは最高のユーティリティを期待する$m$ポリシーを学ぶことができる。
ベルギーのCOVID-19流行を個人モデルSTRIDEを用いて検討し、予防接種方針のセットを学習する。
論文 参考訳(メタデータ) (2023-01-30T12:22:30Z) - Nearly Optimal Latent State Decoding in Block MDPs [74.51224067640717]
エピソードブロック MDP では、意思決定者は少数の潜在状態から生成される豊富な観測やコンテキストにアクセスすることができる。
まず、固定動作ポリシーに基づいて生成されたデータに基づいて、潜時状態復号関数を推定することに興味がある。
次に、報酬のないフレームワークにおいて、最適に近いポリシーを学習する問題について研究する。
論文 参考訳(メタデータ) (2022-08-17T18:49:53Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - A Reinforcement Learning Approach to the Stochastic Cutting Stock
Problem [0.0]
本稿では,削減された無限水平決定プロセスとして,カットストック問題の定式化を提案する。
最適解は、各状態と決定を関連付け、期待される総コストを最小化するポリシーに対応する。
論文 参考訳(メタデータ) (2021-09-20T14:47:54Z) - Multi-Objective Model-based Reinforcement Learning for Infectious
Disease Control [19.022696762983017]
新型コロナウイルス(COVID-19)などの重症感染症が公衆衛生に大きな脅威をもたらす。
学校閉鎖や自宅待機命令などの厳格な規制措置は大きな効果がある一方で、経済的損失も大きい。
本稿では,データ駆動型意思決定の促進と長期的コストの最小化を目的とした多目的モデルに基づく強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-09T23:55:27Z) - Hierarchical Reinforcement Learning for Automatic Disease Diagnosis [52.111516253474285]
政策学習のための対話システムに2段階の階層的な政策構造を統合することを提案する。
提案した政策構造は,多くの疾患や症状を含む診断問題に対処することができる。
論文 参考訳(メタデータ) (2020-04-29T15:02:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。