論文の概要: Game and Reference: Policy Combination Synthesis for Epidemic Prevention and Control
- arxiv url: http://arxiv.org/abs/2403.10744v1
- Date: Sat, 16 Mar 2024 00:26:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 22:04:53.139735
- Title: Game and Reference: Policy Combination Synthesis for Epidemic Prevention and Control
- Title(参考訳): ゲームとレファレンス:エピデミック予防とコントロールのための政策組合せ合成
- Authors: Zhiyi Tan, Bingkun Bao,
- Abstract要約: 疫病対策のための新しい政策組合せ合成(PCS)モデルを提案する。
極端な意思決定を防止するため、モデル作成ポリシーと実際のポリシーの対立学習を導入する。
また、同様のシナリオ下での最高の歴史的政策から、モデルに経験を引き出すために、対照的な学習も採用しています。
- 参考スコア(独自算出の注目度): 4.635793210136456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, epidemic policy-making models are increasingly being used to provide reference for governors on prevention and control policies against catastrophic epidemics such as SARS, H1N1 and COVID-19. Existing studies are currently constrained by two issues: First, previous methods develop policies based on effect evaluation, since few of factors in real-world decision-making can be modeled, the output policies will then easily become extreme. Second, the subjectivity and cognitive limitation of human make the historical policies not always optimal for the training of decision models. To these ends, we present a novel Policy Combination Synthesis (PCS) model for epidemic policy-making. Specially, to prevent extreme decisions, we introduce adversarial learning between the model-made policies and the real policies to force the output policies to be more human-liked. On the other hand, to minimize the impact of sub-optimal historical policies, we employ contrastive learning to let the model draw on experience from the best historical policies under similar scenarios. Both adversarial and contrastive learning are adaptive based on the comprehensive effects of real policies to ensure the model always learns useful information. Extensive experiments on real-world data prove the effectiveness of the proposed model.
- Abstract(参考訳): 近年、SARS、H1N1、COVID-19などの破滅的な流行に対する予防・規制政策について、知事に参考にするために、疫病対策モデルがますます使われてきている。
既存の研究は2つの問題に制約されている: まず、従来の手法は実世界の意思決定における要素のほとんどをモデル化できないため、効果評価に基づく政策を策定する。
第二に、人間の主観性と認知的限界は、歴史的政策を意思決定モデルの訓練に最適とは限りません。
これらの目的のために,疫病対策のための新しい政策組合せ合成(PCS)モデルを提案する。
特に、極端な決定を防止するため、我々は、生産政策をより人間らしくするよう強制するために、モデル作成政策と実際の政策の間の敵対的学習を導入する。
一方、最適でない歴史的政策の影響を最小限に抑えるため、類似したシナリオ下での最高の歴史的政策から経験をモデルに引き出すために、対照的な学習を採用する。
対立学習と対照的学習は、モデルが常に有用な情報を学ぶことを保証するために、実際のポリシーの包括的な効果に基づいて適応される。
実世界のデータに対する大規模な実験により,提案モデルの有効性が証明された。
関連論文リスト
- Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Counterfactual Learning with General Data-generating Policies [3.441021278275805]
我々は、コンテキスト帯域設定における完全なサポートと不足したサポートロギングポリシーのクラスのためのOPE手法を開発した。
サンプルサイズが大きくなるにつれて,本手法の予測値が実測値の真の性能に収束することが証明された。
論文 参考訳(メタデータ) (2022-12-04T21:07:46Z) - Towards A Unified Policy Abstraction Theory and Representation Learning
Approach in Markov Decision Processes [39.94472154078338]
本稿では,異なるレベルでの政策特徴に関連する3種類の政策抽象化を含む統一的な政策抽象化理論を提案する。
そして、それらを3つの政策指標に一般化し、政策の距離(すなわち類似性)を定量化する。
実証実験では,政策の差異を識別し,政策の一般化を伝達する上で,提案した政策指標と表現の有効性について検討する。
論文 参考訳(メタデータ) (2022-09-16T03:41:50Z) - Generalizing Off-Policy Learning under Sample Selection Bias [15.733136147164032]
本稿では,対象人口に一般化する学習政策の枠組みを提案する。
不確実性セットが適切に特定されている場合、トレーニングデータよりも悪いことができないため、我々の政策が対象人口に一般化されることを実証する。
論文 参考訳(メタデータ) (2021-12-02T16:18:16Z) - Building a Foundation for Data-Driven, Interpretable, and Robust Policy
Design using the AI Economist [67.08543240320756]
AIエコノミストフレームワークは,2段階強化学習とデータ駆動型シミュレーションを用いて,効果的な,柔軟な,解釈可能なポリシー設計を可能にする。
RLを用いて訓練されたログリニア政策は、過去の結果と比較して、公衆衛生と経済の両面から社会福祉を著しく改善することがわかった。
論文 参考訳(メタデータ) (2021-08-06T01:30:41Z) - Supervised Off-Policy Ranking [145.3039527243585]
オフポリシー評価(OPE)は、他のポリシーによって生成されたデータを活用して、ターゲットポリシーを評価する。
本稿では,訓練方針と既知の実績を正しくランク付けすることで,政策スコアリングモデルを学習する教師付き非政治ランキングを提案する。
本手法は,上位3つのポリシーのうち,最良と最良の双方のランク相関と性能差の両面から,強力なベースラインOPE法より優れる。
論文 参考訳(メタデータ) (2021-07-03T07:01:23Z) - Offline Policy Comparison under Limited Historical Agent-Environment
Interactions [0.0]
強化学習システムの現実的な応用における政策評価の課題に対処する。
我々は,利用可能な歴史データに基づいて,政策比較,すなわち,その価値の観点から,政策のランク付けを行うことを提案する。
論文 参考訳(メタデータ) (2021-06-07T19:51:00Z) - Reinforcement Learning for Optimization of COVID-19 Mitigation policies [29.4529156655747]
2020年は新型コロナウイルスの感染拡大が世界最悪の世界的なパンデミックの1つとなった。
世界中の政府は公衆衛生を保護し、経済を最大限に維持するという課題に直面している。
疫学モデルは、これらの病気の拡散に関する洞察を与え、介入政策の効果を予測する。
論文 参考訳(メタデータ) (2020-10-20T18:40:15Z) - Efficient Evaluation of Natural Stochastic Policies in Offline
Reinforcement Learning [80.42316902296832]
行動政策から逸脱した観点から定義される自然政策の効果的な非政治的評価について検討する。
これは、ほとんどの著作が明示された政策の評価を考慮に入れている、政治外の評価に関する文献から逸脱している。
論文 参考訳(メタデータ) (2020-06-06T15:08:24Z) - When and How to Lift the Lockdown? Global COVID-19 Scenario Analysis and
Policy Assessment using Compartmental Gaussian Processes [111.69190108272133]
新型コロナウイルス(COVID-19)の世界的な感染拡大を受け、多くの国が前例のないロックダウン措置を講じている。
さまざまなロックダウンポリシーシナリオの下で、新型コロナウイルスの死亡率を予測するデータ駆動モデルが不可欠だ。
本稿では,グローバルな状況下での新型コロナウイルスロックダウンポリシーの効果を予測するためのベイズモデルを開発する。
論文 参考訳(メタデータ) (2020-05-13T18:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。