論文の概要: Decision-Dependent Distributionally Robust Markov Decision Process
Method in Dynamic Epidemic Control
- arxiv url: http://arxiv.org/abs/2306.14051v1
- Date: Sat, 24 Jun 2023 20:19:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 17:22:20.088857
- Title: Decision-Dependent Distributionally Robust Markov Decision Process
Method in Dynamic Epidemic Control
- Title(参考訳): 動的エピデミック制御における決定依存分布ロバストマルコフ決定法
- Authors: Jun Song, William Yang and Chaoyue Zhao
- Abstract要約: Susceptible-Exposed-Infectious-Recovered (SEIR) モデルは感染症の拡散を表すために広く用いられている。
本稿では,動的流行制御問題に対処するために,分布ロバストマルコフ決定プロセス(DRMDP)を提案する。
- 参考スコア(独自算出の注目度): 4.644416582073023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a Distributionally Robust Markov Decision Process
(DRMDP) approach for addressing the dynamic epidemic control problem. The
Susceptible-Exposed-Infectious-Recovered (SEIR) model is widely used to
represent the stochastic spread of infectious diseases, such as COVID-19. While
Markov Decision Processes (MDP) offers a mathematical framework for identifying
optimal actions, such as vaccination and transmission-reducing intervention, to
combat disease spreading according to the SEIR model. However, uncertainties in
these scenarios demand a more robust approach that is less reliant on
error-prone assumptions. The primary objective of our study is to introduce a
new DRMDP framework that allows for an ambiguous distribution of transition
dynamics. Specifically, we consider the worst-case distribution of these
transition probabilities within a decision-dependent ambiguity set. To overcome
the computational complexities associated with policy determination, we propose
an efficient Real-Time Dynamic Programming (RTDP) algorithm that is capable of
computing optimal policies based on the reformulated DRMDP model in an
accurate, timely, and scalable manner. Comparative analysis against the classic
MDP model demonstrates that the DRMDP achieves a lower proportion of infections
and susceptibilities at a reduced cost.
- Abstract(参考訳): 本稿では,動的流行制御問題に対処する分散ロバストマルコフ決定プロセス(DRMDP)を提案する。
Susceptible-Exposed-Infectious-Recovered(SEIR)モデルは、新型コロナウイルスなどの感染症の確率的拡散を表すために広く用いられている。
マルコフ決定プロセス(MDP)は、予防接種や感染抑制介入などの最適な行動を特定するための数学的枠組みを提供する一方で、SEIRモデルに従って拡散する病気に対処する。
しかし、これらのシナリオにおける不確実性は、より堅牢なアプローチを要求する。
本研究の主な目的は、遷移力学の曖昧な分布を可能にする新しいDRMDPフレームワークの導入である。
具体的には,決定依存的曖昧性集合における遷移確率の最悪の場合分布について考察する。
政策決定に関連する計算の複雑さを克服するために,再編成されたdrmdpモデルに基づく最適なポリシーを,正確かつタイムリーかつスケーラブルに計算できる効率的なリアルタイム動的プログラミング(rtdp)アルゴリズムを提案する。
従来のMDPモデルとの比較分析により、DRMDPは感染率と感受性の低下を低コストで達成していることが示された。
関連論文リスト
- Process Reward Model with Q-Value Rankings [18.907163177605607]
プロセス・リワード・モデリング(PRM)は複雑な推論と意思決定に不可欠である。
本稿では,マルコフ決定プロセスの文脈でPRMを再定義する新しいフレームワークであるProcess Q-value Model(PQM)を紹介する。
PQMは、新しい比較損失関数に基づいてQ値ランキングを最適化し、シーケンシャルな決定の中で複雑なダイナミクスをキャプチャするモデルの能力を向上する。
論文 参考訳(メタデータ) (2024-10-15T05:10:34Z) - On the Foundation of Distributionally Robust Reinforcement Learning [19.621038847810198]
我々は、分布的堅牢性強化学習(DRRL)の理論的基礎に貢献する。
この枠組みは、意思決定者に対して、相手が編成した最悪の分散シフトの下で最適な政策を選択することを義務付ける。
このDRMDPフレームワーク内では、動的プログラミング原理(DPP)の存在の有無を調査する。
論文 参考訳(メタデータ) (2023-11-15T15:02:23Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Soft Robust MDPs and Risk-Sensitive MDPs: Equivalence, Policy Gradient, and Sample Complexity [7.57543767554282]
本稿では,リスクに敏感なMDPの新たな定式化について紹介し,従来のマルコフリスク尺度と若干異なる方法でリスクを評価する。
両問題に対してポリシー勾配定理を導出し、厳密なポリシー勾配法の勾配支配と大域収束を証明した。
また、サンプルベースのオフライン学習アルゴリズム、すなわちロバスト適応Z反復(RFZI)を提案する。
論文 参考訳(メタデータ) (2023-06-20T15:51:25Z) - The Curious Price of Distributional Robustness in Reinforcement Learning with a Generative Model [61.87673435273466]
本稿では,強化学習(RL)におけるモデルロバスト性を検討した。
我々は,デプロイ環境が,名目MDPに規定された不確実性に陥る場合に,最悪の場合のパフォーマンスを最適化する政策を学習することを目的とした,分布的に堅牢なマルコフ決定プロセス(RMDP)の枠組みを採用する。
論文 参考訳(メタデータ) (2023-05-26T02:32:03Z) - Risk-Averse MDPs under Reward Ambiguity [9.929659318167731]
本稿では,リスクと報酬のあいまいさの下で,マルコフ決定過程(MDP)の分布的に堅牢なリターンリスクモデルを提案する。
スケーラブルな一階述語アルゴリズムは大規模問題の解法として設計されている。
論文 参考訳(メタデータ) (2023-01-03T11:06:30Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Robust Entropy-regularized Markov Decision Processes [23.719568076996662]
本稿では,ER-MDPモデルのロバストバージョンについて検討する。
我々は, ER-MDPと頑健な非正規化MDPモデルに係わる重要な特性も設定に保たれることを示す。
私たちは、我々のフレームワークと結果を、価値や(修正された)ポリシーを含む異なるアルゴリズムのスキームに統合する方法を示します。
論文 参考訳(メタデータ) (2021-12-31T09:50:46Z) - Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。
このアプローチは多くの実装と最適化の課題をもたらします。
提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文 参考訳(メタデータ) (2021-03-18T14:26:26Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - An Optimal Control Approach to Learning in SIDARTHE Epidemic model [67.22168759751541]
本研究では,疫病データから動的コンパートメンタルモデルの時間変化パラメータを学習するための一般的な手法を提案する。
我々はイタリアとフランスの疫病の進化を予報する。
論文 参考訳(メタデータ) (2020-10-28T10:58:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。