論文の概要: IRL for Restless Multi-Armed Bandits with Applications in Maternal and Child Health
- arxiv url: http://arxiv.org/abs/2412.08463v1
- Date: Wed, 11 Dec 2024 15:28:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:03:40.584370
- Title: IRL for Restless Multi-Armed Bandits with Applications in Maternal and Child Health
- Title(参考訳): 安静時多関節バンドに対するIRLと母子保健への応用
- Authors: Gauri Jain, Pradeep Varakantham, Haifeng Xu, Aparna Taneja, Prashant Doshi, Milind Tambe,
- Abstract要約: 本論文は,RMABに対する所望の報酬を学習するために,逆強化学習(IRL)を用いた最初の事例である。
本研究は,母子保健遠隔医療プログラムにおける改善された成果を示すものである。
- 参考スコア(独自算出の注目度): 52.79219652923714
- License:
- Abstract: Public health practitioners often have the goal of monitoring patients and maximizing patients' time spent in "favorable" or healthy states while being constrained to using limited resources. Restless multi-armed bandits (RMAB) are an effective model to solve this problem as they are helpful to allocate limited resources among many agents under resource constraints, where patients behave differently depending on whether they are intervened on or not. However, RMABs assume the reward function is known. This is unrealistic in many public health settings because patients face unique challenges and it is impossible for a human to know who is most deserving of any intervention at such a large scale. To address this shortcoming, this paper is the first to present the use of inverse reinforcement learning (IRL) to learn desired rewards for RMABs, and we demonstrate improved outcomes in a maternal and child health telehealth program. First we allow public health experts to specify their goals at an aggregate or population level and propose an algorithm to design expert trajectories at scale based on those goals. Second, our algorithm WHIRL uses gradient updates to optimize the objective, allowing for efficient and accurate learning of RMAB rewards. Third, we compare with existing baselines and outperform those in terms of run-time and accuracy. Finally, we evaluate and show the usefulness of WHIRL on thousands on beneficiaries from a real-world maternal and child health setting in India. We publicly release our code here: https://github.com/Gjain234/WHIRL.
- Abstract(参考訳): 公衆衛生実践者は、患者を監視し、限られた資源の使用に制約されながら「好ましい」状態または健康状態に費やされた患者の時間を最大化する、という目標をしばしば持っている。
レストレス・マルチアーム・バンディット(RMAB)は、リソース制約下において、患者が介入されているかどうかによって異なる振る舞いをする多くのエージェントに限られたリソースを割り当てるのに役立つため、この問題を解決する効果的なモデルである。
しかし、RMABは報酬関数が知られていると仮定する。
これは、多くの公衆衛生環境では、患者がユニークな課題に直面しているため、人間がこれほど大規模な介入を最も守っているかを知ることは不可能である。
この欠点に対処するために,本論文は,RMABに対する望ましい報酬を学習するための逆強化学習(IRL)の使用を初めて提示し,母子保健遠隔医療プログラムにおいて改善された成果を示す。
まず、公衆衛生の専門家が、その目標を総数または人口レベルで指定することを許可し、それらの目標に基づいて専門家の軌跡を大規模に設計するアルゴリズムを提案する。
第2に、我々のアルゴリズムWHIRLは勾配更新を用いて目的を最適化し、RMAB報酬の効率的かつ正確な学習を可能にする。
第3に,既存のベースラインと比較し,実行時間と精度で性能を向上する。
最後に、インドにおける実世界の母子保健施設の受益者数千人に対するWHIRLの有用性を評価し、示す。
コードについては、https://github.com/Gjain234/WHIRL.comで公開しています。
関連論文リスト
- Optimizing Vital Sign Monitoring in Resource-Constrained Maternal Care: An RL-Based Restless Bandit Approach [31.228987526386558]
ワイヤレスのバイタルサインモニタリングデバイスは、継続的監視のための労働効率の高いソリューションを提供する。
本稿では,Restless Multi-Armed Bandit パラダイムの変種としてモデル化することで,この問題に対するアロケーションアルゴリズムを考案する。
シミュレーションでは、我々の手法が最高のベースラインを最大4ドルまで上回ります。
論文 参考訳(メタデータ) (2024-10-10T21:20:07Z) - Improving Health Information Access in the World's Largest Maternal Mobile Health Program via Bandit Algorithms [24.4450506603579]
本論文は,母子保健における世界最大級のmHealthプログラムであるKilkariに焦点を当てる。
本稿では,自動ドロップアウトの削減とプログラムへのエンゲージメント向上を目的としたCHAHAKシステムを提案する。
論文 参考訳(メタデータ) (2024-05-14T07:21:49Z) - Efficient Public Health Intervention Planning Using Decomposition-Based
Decision-Focused Learning [33.14258196945301]
介入計画の高速化のために、レスレスマルチアーマッドバンド(RMAB)の構造を利用する方法を示す。
私たちはインドのNGOであるARMMANの実際のデータを使って、我々のアプローチが最先端のアプローチよりも最大2桁高速であることを示す。
論文 参考訳(メタデータ) (2024-03-08T21:31:00Z) - A Decision-Language Model (DLM) for Dynamic Restless Multi-Armed Bandit Tasks in Public Health [29.894488663882328]
大規模言語モデル(LLM)は、ロボット制御とナビゲーションの領域にまたがる包括的な自動プランナーとして登場した。
本稿では,RMAB ポリシーを動的に微調整する RMAB のための決定言語モデル (DLM) を提案する。
論文 参考訳(メタデータ) (2024-02-22T18:58:27Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Deep Reinforcement Learning for Efficient and Fair Allocation of Health Care Resources [47.57108369791273]
医療資源の枯渇は、レーションの避けられない結果をもたらす可能性がある。
医療資源割り当てプロトコルの普遍的な標準は存在しない。
本稿では,患者の疾患進行と患者間の相互作用効果を統合するためのトランスフォーマーベースのディープQネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-15T17:28:06Z) - Equitable Restless Multi-Armed Bandits: A General Framework Inspired By
Digital Health [23.762981395335217]
Restless Multi-armed Bandits (RMAB) は、限られたリソースを持つシーケンシャルな設定でアルゴリズムによる意思決定を行う一般的なフレームワークである。
RMABは、公衆衛生、治療スケジュール、密猟、そしてこの仕事の動機であるデジタル健康などの繊細な決定にますます使われています。
我々は、RMABの公平な目標を初めて検討し、公平性文学、ミニマックス報酬、最大ナッシュ福祉の2つの目標について考察する。
我々は,前者に対する水充填アルゴリズムと,異なる群の大きさのバランスをとるための理論的動機付けされたニュアンスをもつグリーディアルゴリズムをそれぞれ解くための効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-08-17T13:00:27Z) - Bandit Social Learning: Exploration under Myopic Behavior [58.75758600464338]
オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。
エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。
このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
論文 参考訳(メタデータ) (2023-02-15T01:57:57Z) - Practical Challenges in Differentially-Private Federated Survival
Analysis of Medical Data [57.19441629270029]
本稿では,ニューラルネットワークの本質的特性を活用し,生存分析モデルの訓練過程を関連づける。
小さな医療データセットと少数のデータセンターの現実的な設定では、このノイズはモデルを収束させるのが難しくなります。
DPFed-post は,私的フェデレート学習方式に後処理の段階を追加する。
論文 参考訳(メタデータ) (2022-02-08T10:03:24Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。