論文の概要: Optimizing Vital Sign Monitoring in Resource-Constrained Maternal Care: An RL-Based Restless Bandit Approach
- arxiv url: http://arxiv.org/abs/2410.08377v1
- Date: Thu, 10 Oct 2024 21:20:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 03:46:24.197649
- Title: Optimizing Vital Sign Monitoring in Resource-Constrained Maternal Care: An RL-Based Restless Bandit Approach
- Title(参考訳): 資源拘束型母子ケアにおける生体信号モニタリングの最適化 : RLに基づくレストレスバンドアプローチ
- Authors: Niclas Boehmer, Yunfan Zhao, Guojun Xiong, Paula Rodriguez-Diaz, Paola Del Cueto Cibrian, Joseph Ngonzi, Adeline Boatin, Milind Tambe,
- Abstract要約: ワイヤレスのバイタルサインモニタリングデバイスは、継続的監視のための労働効率の高いソリューションを提供する。
本稿では,Restless Multi-Armed Bandit パラダイムの変種としてモデル化することで,この問題に対するアロケーションアルゴリズムを考案する。
シミュレーションでは、我々の手法が最高のベースラインを最大4ドルまで上回ります。
- 参考スコア(独自算出の注目度): 31.228987526386558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Maternal mortality remains a significant global public health challenge. One promising approach to reducing maternal deaths occurring during facility-based childbirth is through early warning systems, which require the consistent monitoring of mothers' vital signs after giving birth. Wireless vital sign monitoring devices offer a labor-efficient solution for continuous monitoring, but their scarcity raises the critical question of how to allocate them most effectively. We devise an allocation algorithm for this problem by modeling it as a variant of the popular Restless Multi-Armed Bandit (RMAB) paradigm. In doing so, we identify and address novel, previously unstudied constraints unique to this domain, which render previous approaches for RMABs unsuitable and significantly increase the complexity of the learning and planning problem. To overcome these challenges, we adopt the popular Proximal Policy Optimization (PPO) algorithm from reinforcement learning to learn an allocation policy by training a policy and value function network. We demonstrate in simulations that our approach outperforms the best heuristic baseline by up to a factor of $4$.
- Abstract(参考訳): 母親の死亡は依然として重要な公衆衛生上の課題である。
施設ベースの出産で発生した母性死亡を減らすための有望なアプローチは、早期警戒システムを通じて、出産後の母親のバイタルサインを一貫した監視を必要とする。
ワイヤレスのバイタルサインモニタリングデバイスは、継続的監視のための労働効率の高いソリューションを提供するが、その不足は、それらをどのように効果的に割り当てるかという重要な疑問を提起する。
本稿では、この問題をRMAB(Restless Multi-Armed Bandit)パラダイムの変種としてモデル化することで、この問題に対するアロケーションアルゴリズムを考案する。
これにより,RMABに対する従来のアプローチは不適切であり,学習と計画の複雑さが著しく増大する。
これらの課題を克服するために、我々は強化学習から人気のあるPPOアルゴリズムを採用し、ポリシーと値関数ネットワークをトレーニングしてアロケーションポリシーを学習する。
シミュレーションでは、我々の手法が最高のヒューリスティックベースラインを最大4ドルまで上回ることを示した。
関連論文リスト
- Bayesian Collaborative Bandits with Thompson Sampling for Improved Outreach in Maternal Health Program [36.10003434625494]
モバイルヘルス(mHealth)プログラムは、受益者への自動健康情報呼び出しのタイミングを最適化する上で、重要な課題に直面している。
本稿では,この協調バンディット問題に対するトンプソンサンプリングを用いた原理的アプローチを提案する。
我々は,世界最大規模の母体mHealthプログラムから,実世界のデータセット上での最先端のベースラインを大幅に改善したことを示す。
論文 参考訳(メタデータ) (2024-10-28T18:08:18Z) - Pruning the Way to Reliable Policies: A Multi-Objective Deep Q-Learning Approach to Critical Care [46.2482873419289]
我々は、より信頼性の高いクリティカルケアポリシーを得るための深いQ-ラーニングアプローチを導入する。
本手法を,集中治療室のシミュレーション環境と実際の健康記録を用いて,オフライン・オフ・セッティングで評価した。
論文 参考訳(メタデータ) (2023-06-13T18:02:57Z) - Latent State Marginalization as a Low-cost Approach for Improving
Exploration [79.12247903178934]
我々はMaxEntフレームワークにおける潜在変数ポリシーの採用を提案する。
我々は、潜在変数ポリシーが、潜在信念状態を持つ世界モデルの下で自然に現れることを示す。
提案手法を連続制御タスクに対して実験的に検証し, 有効限界化がよりよい探索とより堅牢な訓練につながることを示した。
論文 参考訳(メタデータ) (2022-10-03T15:09:12Z) - Scalable Decision-Focused Learning in Restless Multi-Armed Bandits with
Application to Maternal and Child Health [36.442133189056136]
本稿では、未知のアーム遷移ダイナミクスを持つが、既知の相関アーム特徴を持つ、レスレスマルチアーム・バンディット(RMAB)問題について検討する。
目標は、WhittleインデックスポリシーがRMAB問題を予測トランジションを用いて解決する、与えられた特徴の遷移ダイナミクスを予測するモデルを学ぶことである。
そこで本研究では,Whittle指数解の品質を最大化するために,予測モデルを直接訓練するRMABにおける意思決定型学習手法を提案する。
論文 参考訳(メタデータ) (2022-02-02T08:36:10Z) - Contingency-Aware Influence Maximization: A Reinforcement Learning
Approach [52.109536198330126]
インフルエンス(IM)問題は、インフルエンスの普及を最大化する、ソーシャルネットワーク内のシードノードのサブセットを見つけることを目的としている。
本研究では、招待されたノードがシードであるかどうかが不確実なIM問題(contingency-aware IM)に焦点をあてる。
最初の成功にもかかわらず、より多くのコミュニティへのソリューションの推進における大きな実践上の障害は、欲張りのアルゴリズムの巨大な実行時である。
論文 参考訳(メタデータ) (2021-06-13T16:42:22Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Learn to Intervene: An Adaptive Learning Policy for Restless Bandits in
Application to Preventive Healthcare [39.41918282603752]
レストレスマルチアームバンディット(RMAB)問題に対するWhittle IndexベースのQ-Learningメカニズムを提案する。
本手法は,複数のベンチマークを用いたRMABの既存の学習方法と,母体保健データセットを改良する。
論文 参考訳(メタデータ) (2021-05-17T15:44:55Z) - Efficient Algorithms for Finite Horizon and Streaming Restless
Multi-Armed Bandit Problems [30.759279275710078]
インデックスベースのソリューションを計算するための新しいスケーラブルなアプローチを提案します。
コストのかかる有限地平線問題を解くことなく,指数減衰をキャプチャするアルゴリズムを提供する。
当社のアルゴリズムは、これらのタスクにおける既存の方法よりも150倍以上のスピードアップを実現し、パフォーマンスを損ないません。
論文 参考訳(メタデータ) (2021-03-08T13:10:31Z) - Coordinated Online Learning for Multi-Agent Systems with Coupled
Constraints and Perturbed Utility Observations [91.02019381927236]
本研究では, 資源制約を満たすため, エージェントを安定な集団状態へ誘導する新しい手法を提案する。
提案手法は,ゲームラグランジアンの拡張によるリソース負荷に基づく分散リソース価格設定手法である。
論文 参考訳(メタデータ) (2020-10-21T10:11:17Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。