論文の概要: Optimizing Resource-Constrained Non-Pharmaceutical Interventions for Multi-Cluster Outbreak Control Using Hierarchical Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.19397v1
- Date: Thu, 19 Mar 2026 18:38:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:38.841469
- Title: Optimizing Resource-Constrained Non-Pharmaceutical Interventions for Multi-Cluster Outbreak Control Using Hierarchical Reinforcement Learning
- Title(参考訳): 階層強化学習を用いたマルチクラスタアウトブレイク制御のための資源制約非薬物介入の最適化
- Authors: Xueqiao Peng, Andrew Perrault,
- Abstract要約: 診断検査や検疫などの非薬剤的介入は、感染症の発生を抑えるのに不可欠である。
現実世界の公衆衛生設定では、リソースは複数のアウトブレイククラスタに分散し、非同期に発生し、サイズとリスクが異なり、共有リソース予算と競合する必要がある。
我々は、この問題を制約のないマルチアームバンディットとして定式化し、階層的な強化学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.292485152613935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-pharmaceutical interventions (NPIs), such as diagnostic testing and quarantine, are crucial for controlling infectious disease outbreaks but are often constrained by limited resources, particularly in early outbreak stages. In real-world public health settings, resources must be allocated across multiple outbreak clusters that emerge asynchronously, vary in size and risk, and compete for a shared resource budget. Here, a cluster corresponds to a group of close contacts generated by a single infected index case. Thus, decisions must be made under uncertainty and heterogeneous demands, while respecting operational constraints. We formulate this problem as a constrained restless multi-armed bandit and propose a hierarchical reinforcement learning framework. A global controller learns a continuous action cost multiplier that adjusts global resource demand, while a generalized local policy estimates the marginal value of allocating resources to individuals within each cluster. We evaluate the proposed framework in a realistic agent-based simulator of SARS-CoV-2 with dynamically arriving clusters. Across a wide range of system scales and testing budgets, our method consistently outperforms RMAB-inspired and heuristic baselines, improving outbreak control effectiveness by 20%-30%. Experiments on up to 40 concurrently active clusters further demonstrate that the hierarchical framework is highly scalable and enables faster decision-making than the RMAB-inspired method.
- Abstract(参考訳): 診断検査や検疫のような非薬剤的介入(NPI)は感染症の発生を抑えるのに不可欠であるが、特に早期発生の段階では限られた資源によって制限されることが多い。
現実世界の公衆衛生設定では、リソースは複数のアウトブレイククラスタに分散し、非同期に発生し、サイズとリスクが異なり、共有リソース予算と競合する必要がある。
ここで、クラスタは、単一の感染したインデックスケースによって生成された密接なコンタクトのグループに対応する。
したがって、決定は、運用上の制約を尊重しながら、不確実性と不均一な要求の下で行われなければならない。
我々は、この問題を制約のないマルチアームバンディットとして定式化し、階層的な強化学習フレームワークを提案する。
グローバルコントローラは、グローバルリソース需要を調整する継続的なアクションコスト乗算器を学習し、一般化されたローカルポリシーは、各クラスタ内の個人にリソースを割り当てる際の限界値を推定する。
提案手法は,SARS-CoV-2の現実的なエージェントベースシミュレータにおいて,動的に到着するクラスタを用いて評価する。
システムスケールや試験予算の幅広い範囲で、RMABにインスパイアされた、ヒューリスティックなベースラインを一貫して上回り、アウトブレイクコントロールの効率を20%から30%向上させる。
最大40の並列アクティブクラスタの実験により、階層的なフレームワークはRMABにインスパイアされた方法よりもスケーラビリティが高く、意思決定が高速であることが示された。
関連論文リスト
- Adversarially Robust Multitask Adaptive Control [6.576173998482649]
本稿では, 対角的ロバストなマルチタスク適応線形二次制御について検討する。
本稿では,クラスタリングとシステム識別とレジリエントアグリゲーションを統合したクラスタ化マルチタスク手法を提案する。
論文 参考訳(メタデータ) (2025-11-07T17:25:21Z) - Neural Index Policies for Restless Multi-Action Bandits with Heterogeneous Budgets [2.9059410824803655]
ヘテロジニアスな予算制約を持つマルチアクションRMABに対するニューラルインデックスポリシー(NIP)を導入する。
NIPは、インデックス予測と制約付き最適化を単一のエンドツーエンドの差別化フレームワークに統合する。
経験的に、NIPは、占有するオラクル対策の5%で、ほぼ最適性能を達成する。
論文 参考訳(メタデータ) (2025-10-24T23:08:36Z) - Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。
この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - Decentralized Reinforcement Learning for Multi-Agent Multi-Resource Allocation via Dynamic Cluster Agreements [13.586104024751586]
本稿では、分散的に複数のエージェント間で異種資源を割り当てることの課題に対処する。
提案手法であるLGTC-IPPOは,動的クラスタ・コンセンサスを統合することにより,独立近似政策最適化(IPPO)に基づく。
実験結果から,LGTC-IPPOはエージェント数やリソースタイプが増えても,より安定した報酬,コーディネーション,ロバストな性能が得られることが示された。
論文 参考訳(メタデータ) (2025-03-04T09:23:48Z) - Deep Reinforcement Learning for Efficient and Fair Allocation of Health Care Resources [47.57108369791273]
医療資源の枯渇は、レーションの避けられない結果をもたらす可能性がある。
医療資源割り当てプロトコルの普遍的な標準は存在しない。
本稿では,患者の疾患進行と患者間の相互作用効果を統合するためのトランスフォーマーベースのディープQネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-15T17:28:06Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Convergence Rates of Average-Reward Multi-agent Reinforcement Learning
via Randomized Linear Programming [41.30044824711509]
我々は,グローバル報酬が地域報酬の総和であり,共同政策がエージェントの限界と州全体の可観測性に分解される場合に焦点を当てる。
エージェントが局所的なサドル点問題を解き、局所的な重み付き平均化を行うマルチエージェント拡張を開発する。
準グロブリー最適解を得るためのサンプルの複雑さは、状態空間と作用空間の濃度に対する厳密な依存と一致することを確かめる。
論文 参考訳(メタデータ) (2021-10-22T03:48:41Z) - Active Screening for Recurrent Diseases: A Reinforcement Learning
Approach [29.78172882606022]
我々は,Deep Q-Networks(DQN)に基づく新しい強化学習(RL)手法を提案する。
実世界の複数のネットワーク上でRLアルゴリズムを評価する。
論文 参考訳(メタデータ) (2021-01-07T21:07:35Z) - Coordinated Online Learning for Multi-Agent Systems with Coupled
Constraints and Perturbed Utility Observations [91.02019381927236]
本研究では, 資源制約を満たすため, エージェントを安定な集団状態へ誘導する新しい手法を提案する。
提案手法は,ゲームラグランジアンの拡張によるリソース負荷に基づく分散リソース価格設定手法である。
論文 参考訳(メタデータ) (2020-10-21T10:11:17Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。