論文の概要: Disease control as an optimization problem
- arxiv url: http://arxiv.org/abs/2009.06576v4
- Date: Thu, 30 Sep 2021 09:11:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 13:08:26.106189
- Title: Disease control as an optimization problem
- Title(参考訳): 最適化問題としての疾患管理
- Authors: Miguel Navascues, Costantino Budroni and Yelena Guryanova
- Abstract要約: 我々は凸最適化理論と機械学習の手法を用いて、数百のパラメータによって記述された疾患ポリシーを最適化する。
我々は,Kissler emphet al.(2020年3月,2020年3月)が提唱した,感受性-感染-回復型(SEIR)モデルにおいて,COVID-19を根絶するのに要する時間を最小化することで,我々のアプローチを説明する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the context of epidemiology, policies for disease control are often
devised through a mixture of intuition and brute-force, whereby the set of
logically conceivable policies is narrowed down to a small family described by
a few parameters, following which linearization or grid search is used to
identify the optimal policy within the set. This scheme runs the risk of
leaving out more complex (and perhaps counter-intuitive) policies for disease
control that could tackle the disease more efficiently. In this article, we use
techniques from convex optimization theory and machine learning to conduct
optimizations over disease policies described by hundreds of parameters. In
contrast to past approaches for policy optimization based on control theory,
our framework can deal with arbitrary uncertainties on the initial conditions
and model parameters controlling the spread of the disease, and stochastic
models. In addition, our methods allow for optimization over policies which
remain constant over weekly periods, specified by either continuous or discrete
(e.g.: lockdown on/off) government measures. We illustrate our approach by
minimizing the total time required to eradicate COVID-19 within the
Susceptible-Exposed-Infected-Recovered (SEIR) model proposed by Kissler
\emph{et al.} (March, 2020).
- Abstract(参考訳): 疫学の文脈では、直観とブルートフォースの混合によって病気管理の方針が考案されることが多く、論理的に考えられる政策の集合は、いくつかのパラメータによって記述された小さなファミリーに絞り込まれ、その集合内の最適なポリシーを特定するために線形化やグリッド探索が使用される。
このスキームは、病気をより効率的に対処できる病気管理のためのより複雑な(そしておそらく直観に反する)ポリシーを除外するリスクを負う。
本稿では,凸最適化理論と機械学習の手法を用いて,数百のパラメータで記述された疾患政策に対して最適化を行う。
制御理論に基づく政策最適化に対する過去のアプローチとは対照的に,本フレームワークは,初期条件やモデルパラメータ,確率的モデルなど,任意の不確実性に対処することができる。
さらに,本手法では,週ごとに一定であり,連続的あるいは離散的(例えば,ロックダウンオン/オフ)な政府の措置によって規定されるポリシーを最適化することが可能である。
筆者らは,Kissler \emph{et al が提案した,感受性-感染-回復モデル (SEIR) 内でのCOVID-19の根絶に要する時間を最小化する。
と2020年3月)。
関連論文リスト
- Landscape of Policy Optimization for Finite Horizon MDPs with General State and Action [10.219627570276689]
我々は、一般的な状態と空間を持つマルコフ決定過程のクラスのためのフレームワークを開発する。
勾配法は非漸近条件で大域的最適ポリシーに収束することを示す。
その結果,多周期インベントリシステムにおける最初の複雑性が確立された。
論文 参考訳(メタデータ) (2024-09-25T17:56:02Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Constraint-Generation Policy Optimization (CGPO): Nonlinear Programming
for Policy Optimization in Mixed Discrete-Continuous MDPs [23.87856533426793]
CGPOは、表現力のある非線形力学を持つ多くのDC-MDPに対して、無限の範囲の初期状態に対する有界なポリシーエラーを保証する。
CGPOは、最悪の状態軌跡を生成して、政策上の欠陥を診断し、最適な行動の反実的な説明を提供する。
在庫管理や貯水池のシステム管理など,多様な分野におけるCGPOの適用性について実験的に検証した。
論文 参考訳(メタデータ) (2024-01-20T07:12:57Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Discrete Stochastic Optimization for Public Health Interventions with
Constraints [1.8275108630751844]
本稿では,2009年のH1N1と新型コロナウイルスのパンデミックについて,オープンソースのモンテカルロシミュレーションによってモデル化された疾患の拡散について述べる。
最適化の目的は、社会に最小限の経済損失をもたらすため、介入戦略の最良の組み合わせを決定することである。
論文 参考訳(メタデータ) (2022-06-27T21:21:25Z) - Estimating Optimal Infinite Horizon Dynamic Treatment Regimes via
pT-Learning [2.0625936401496237]
モバイルヘルス(mHealth)技術の最近の進歩は、個人の健康状態を監視し、ジャスト・イン・タイムのパーソナライズされた介入を提供する効果的な方法を提供する。
mHealthテクノロジーの実用化は、最適な動的治療体制を学習する上で、既存の方法論に固有の課題を提起する。
本稿では,決定論的とスパース政策モデルの間で適応的に調整された最適条件を推定する近時学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T18:38:22Z) - MPC-based Reinforcement Learning for Economic Problems with Application
to Battery Storage [0.0]
モデル予測制御(MPC)に基づく政策近似に焦点を当てます。
政策勾配法は,政策が(ほぼ)バンバン構造を持つ場合,政策パラメータに意味のあるステップを生じさせることに苦慮する。
本稿では,内点法に基づくホモトピー戦略を提案し,学習中に方針を緩和する。
論文 参考訳(メタデータ) (2021-04-06T10:37:14Z) - On the Optimality of Batch Policy Optimization Algorithms [106.89498352537682]
バッチポリシー最適化は、環境と対話する前に既存のデータをポリシー構築に活用することを検討する。
信頼調整インデックスアルゴリズムは楽観的,悲観的,中立的いずれであってもミニマックス最適であることを示す。
最適値予測の本来の難易度を考慮した新しい重み付き最小値基準を提案する。
論文 参考訳(メタデータ) (2021-04-06T05:23:20Z) - Optimization Issues in KL-Constrained Approximate Policy Iteration [48.24321346619156]
多くの強化学習アルゴリズムは、近似ポリシー反復(API)のバージョンと見なすことができる。
標準APIはしばしば動作が悪いが、KL-divergenceによる各ポリシー更新を以前のポリシーに正規化することで学習が安定化できることが示されている。
TRPO、MPO、VMPOなどの一般的な実用的なアルゴリズムは、連続ポリシーのKL分割に関する制約によって正規化を置き換える。
論文 参考訳(メタデータ) (2021-02-11T19:35:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。