論文の概要: A Bayesian Approach to Online Learning for Contextual Restless Bandits with Applications to Public Health
- arxiv url: http://arxiv.org/abs/2402.04933v2
- Date: Mon, 27 May 2024 21:03:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 03:28:21.409771
- Title: A Bayesian Approach to Online Learning for Contextual Restless Bandits with Applications to Public Health
- Title(参考訳): コンテキストレスバンドのオンライン学習へのベイズ的アプローチと公衆衛生への応用
- Authors: Biyonka Liang, Lily Xu, Aparna Taneja, Milind Tambe, Lucas Janson,
- Abstract要約: RMABに対するオンラインRLアプローチであるBCoR(Bayesian Learning for Contextual RMABs)について述べる。
BCoRの重要な強みは、腕内と腕間の共有情報を利用して、未知のRMAB遷移ダイナミクスを素早く学習する能力である。
- 参考スコア(独自算出の注目度): 36.83063109531146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Public health programs often provide interventions to encourage beneficiary adherence,and effectively allocating interventions is vital for producing the greatest overall health outcomes. Such resource allocation problems are often modeled as restless multi-armed bandits (RMABs) with unknown underlying transition dynamics, hence requiring online reinforcement learning (RL). We present Bayesian Learning for Contextual RMABs (BCoR), an online RL approach for RMABs that novelly combines techniques in Bayesian modeling with Thompson sampling to flexibly model the complex RMAB settings present in public health program adherence problems, such as context and non-stationarity. BCoR's key strength is the ability to leverage shared information within and between arms to learn the unknown RMAB transition dynamics quickly in intervention-scarce settings with relatively short time horizons, which is common in public health applications. Empirically, BCoR achieves substantially higher finite-sample performance over a range of experimental settings, including an example based on real-world adherence data that was developed in collaboration with ARMMAN, an NGO in India which runs a large-scale maternal health program, showcasing BCoR practical utility and potential for real-world deployment.
- Abstract(参考訳): 公衆衛生プログラムは受益者の順守を促進するための介入をしばしば提供し、効果的に介入を割り当てることは、最も大きな総合的な健康結果を生み出すのに不可欠である。
このような資源配分問題は、しばしば、未知の遷移ダイナミクスを持つレスレス・マルチアーム・バンディット (RMAB) としてモデル化されるため、オンライン強化学習 (RL) が必要となる。
ベイジアン・ラーニング・フォー・コンテクチュアル・RMABs(BCoR)は、ベイジアン・モデリングの手法とトンプソン・サンプリングの技法を巧みに組み合わせて、コンテキストや非定常性などの公衆衛生プログラムの付着問題に存在する複雑なRMAB設定を柔軟にモデル化する、RMABのオンラインRLアプローチである。
BCoRの重要な強みは、腕内と腕間の共有情報を活用して、公衆衛生アプリケーションでよく見られる、比較的短い時間的地平線を持つ介入スカース環境で、未知のRMABトランジションダイナミクスを迅速に学習する能力である。
経験的に、BCoRは、大規模な母体健康プログラムを実行するインドのNGOであるARMMANと共同で開発された実世界の付着データに基づく例、BCoRの実用性と実世界の展開の可能性を示す例など、様々な実験環境において、はるかに高い有限サンプル性能を実現している。
関連論文リスト
- Combinatorial Multivariant Multi-Armed Bandits with Applications to Episodic Reinforcement Learning and Beyond [58.39457881271146]
CMAB(Multi-armed bandits)の多変量および確率的トリガーアーム(CMAB-MT)を用いた新しい枠組みを導入する。
CMAB-MTは既存のCMABと比べ、モデリング能力を高めるだけでなく、多変量確率変数の異なる統計特性を活用することで結果を改善することができる。
本フレームワークは, エピソード強化学習(RL)や商品分布の確率的最大カバレッジなど, 応用として多くの重要な問題を含むことができる。
論文 参考訳(メタデータ) (2024-06-03T14:48:53Z) - A Decision-Language Model (DLM) for Dynamic Restless Multi-Armed Bandit Tasks in Public Health [29.894488663882328]
大規模言語モデル(LLM)は、ロボット制御とナビゲーションの領域にまたがる包括的な自動プランナーとして登場した。
本稿では,RMAB ポリシーを動的に微調整する RMAB のための決定言語モデル (DLM) を提案する。
論文 参考訳(メタデータ) (2024-02-22T18:58:27Z) - Towards a Pretrained Model for Restless Bandits via Multi-arm
Generalization [32.90636136408938]
Restless Multi-arm bandits (RMAB) は、医療、オンライン広告、密猟などの分野で広く利用されているリソース割り当て問題である。
本研究では,これまで見つからなかった広範囲なRMABに対して,一般的なゼロショット能力を有するニューラルネットワークベース事前学習モデル(PreFeRMAB)を開発した。
論文 参考訳(メタデータ) (2023-10-23T03:16:32Z) - Limited Resource Allocation in a Non-Markovian World: The Case of
Maternal and Child Healthcare [27.812174610119452]
低リソース環境におけるスケジューリング介入の問題点を考察し,順応性やエンゲージメントを高めることを目的とする。
過去の研究は、この問題に対する数種類のRestless Multi-armed Bandit (RMAB) ベースのソリューションの開発に成功している。
我々のパートナーであるNGO ARMMAN の母体健康意識プログラムにおける実世界データに対する Markov の仮定から大きく逸脱した。
一般化された非マルコフ的RMAB設定に取り組むために、(i)各参加者の軌跡を時系列としてモデル化し、(ii)時系列予測モデルのパワーを利用して将来の状態を予測し、(iii)時間を提案する。
論文 参考訳(メタデータ) (2023-05-22T02:26:29Z) - Multi-task Paired Masking with Alignment Modeling for Medical
Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。
また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文 参考訳(メタデータ) (2023-05-13T13:53:48Z) - Efficient Resource Allocation with Fairness Constraints in Restless
Multi-Armed Bandits [8.140037969280716]
Restless Multi-Armed Bandits (RMAB)は、公衆衛生介入における意思決定問題を表現するための適応モデルである。
本稿では,RMAB意思決定が期待値の最大化を図りつつ,異なるアームに対して公平であることを保証することに関心がある。
論文 参考訳(メタデータ) (2022-06-08T13:28:29Z) - Robust Restless Bandits: Tackling Interval Uncertainty with Deep
Reinforcement Learning [31.515757763077065]
我々は、レスレス・マルチアーム・バンディット(RMAB)の一般化であるRobust Restless Banditsを紹介する。
遷移が区間不確実性によって与えられる場合、最小限の後悔目標に対する解を開発する。
RMABPPOはRMABを解くための新しい深層強化学習アルゴリズムである。
論文 参考訳(メタデータ) (2021-07-04T17:21:26Z) - The Medkit-Learn(ing) Environment: Medical Decision Modelling through
Simulation [81.72197368690031]
医用シーケンシャルな意思決定に特化して設計された新しいベンチマークスイートを提案する。
Medkit-Learn(ing) Environmentは、高忠実度合成医療データに簡単かつ簡単にアクセスできるPythonパッケージである。
論文 参考訳(メタデータ) (2021-06-08T10:38:09Z) - Scalable Bayesian Inverse Reinforcement Learning [93.27920030279586]
我々はAVRIL(Adroximate Variational Reward Imitation Learning)を紹介する。
本手法は,逆強化学習問題の誤った性質に対処する。
本手法を従来の制御シミュレーションと並行して実際の医療データに適用し,現在の手法の範囲を超えた環境におけるベイズ報酬推論を実証する。
論文 参考訳(メタデータ) (2021-02-12T12:32:02Z) - Clinical Temporal Relation Extraction with Probabilistic Soft Logic
Regularization and Global Inference [50.029659413650194]
既存のメソッドは、高価な機能エンジニアリングを必要とするか、イベント間のグローバルな依存関係をモデル化できない。
本稿では,確率論的ソフト論理規則化とグローバル推論を用いた新しい臨床時間緩和法を提案する。
論文 参考訳(メタデータ) (2020-12-16T08:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。