Fugu-MT 論文翻訳(概要): A Bayesian Approach to Online Learning for Contextual Restless Bandits with Applications to Public Health

論文の概要: A Bayesian Approach to Online Learning for Contextual Restless Bandits with Applications to Public Health

arxiv url: http://arxiv.org/abs/2402.04933v1
Date: Wed, 7 Feb 2024 15:11:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-08 14:50:49.070585
Title: A Bayesian Approach to Online Learning for Contextual Restless Bandits with Applications to Public Health
Title（参考訳）: コンテキストレスバンドのオンライン学習へのベイズ的アプローチと公衆衛生への応用
Authors: Biyonka Liang, Lily Xu, Aparna Taneja, Milind Tambe, Lucas Janson
Abstract要約: 本稿では,RMABのオンライン強化学習手法としてBayesian Learning for Contextual RMABs(BCoR)を提案する。 BCoRは, 実験条件下での既存手法に比べて, かなり高い有限サンプル性能を実現することを示す。
参考スコア（独自算出の注目度）: 39.513593558052314
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Restless multi-armed bandits (RMABs) are used to model sequential resource allocation in public health intervention programs. In these settings, the underlying transition dynamics are often unknown a priori, requiring online reinforcement learning (RL). However, existing methods in online RL for RMABs cannot incorporate properties often present in real-world public health applications, such as contextual information and non-stationarity. We present Bayesian Learning for Contextual RMABs (BCoR), an online RL approach for RMABs that novelly combines techniques in Bayesian modeling with Thompson sampling to flexibly model a wide range of complex RMAB settings, such as contextual and non-stationary RMABs. A key contribution of our approach is its ability to leverage shared information within and between arms to learn unknown RMAB transition dynamics quickly in budget-constrained settings with relatively short time horizons. Empirically, we show that BCoR achieves substantially higher finite-sample performance than existing approaches over a range of experimental settings, including one constructed from a real-world public health campaign in India.
Abstract（参考訳）: Restless Multi-armed bandits (RMAB) は公衆衛生介入プログラムにおける逐次的資源配分をモデル化するために用いられる。これらの設定では、基礎となる遷移力学は、しばしば事前の未知であり、オンライン強化学習(RL)を必要とする。しかし、RMABのオンラインRLにおける既存の手法は、文脈情報や非定常性のような現実世界の公衆衛生アプリケーションにしばしば存在するプロパティを組み込むことはできない。本稿では,bayesian learning for context rmabs (bcor)を提案する。これはrmabsのオンラインrlアプローチであり,bayesian modelingのテクニックとトンプソンサンプリングを新規に組み合わせ,コンテキストや非定常rmabsといった複雑なrmab設定を柔軟にモデル化する。我々のアプローチの重要な貢献は、比較的短い時間軸で予算制限された設定で、未知のrmab遷移ダイナミクスを素早く学ぶために腕内と腕間の共有情報を活用する能力です。実験により,BCoRは,インドにおける実際の公衆衛生キャンペーンから構築したものを含む,様々な実験環境において,既存のアプローチよりもはるかに高い有限サンプル性能を実現していることを示す。

関連論文リスト

Probabilistic and reinforced mining of association rules [0.0]
本研究は、アソシエーション・ルール・マイニング(ARM)のための4つの新しい確率的および強化駆動方式を導入する。 GPAR、BARM、MAB-ARM、RLARは、事前知識、モデリングの不確実性、アイテム依存、確率的推論、適応的な検索戦略を組み込む機能拡張を提供する。これらのイノベーションは、小売、地理、ファイナンス、医療診断、リスクに敏感なシナリオなど、さまざまなアプリケーションドメインに対して、事前および依存関係インフォームド、不確実性対応、スケーラブルなARMフレームワークを提供する。
論文参考訳（メタデータ） (2025-06-22T19:51:15Z)
IRL for Restless Multi-Armed Bandits with Applications in Maternal and Child Health [52.79219652923714]
本論文は,RMABに対する所望の報酬を学習するために,逆強化学習(IRL)を用いた最初の事例である。本研究は,母子保健遠隔医療プログラムにおける改善された成果を示すものである。
論文参考訳（メタデータ） (2024-12-11T15:28:04Z)
Combinatorial Multivariant Multi-Armed Bandits with Applications to Episodic Reinforcement Learning and Beyond [58.39457881271146]
CMAB(Multi-armed bandits)の多変量および確率的トリガーアーム(CMAB-MT)を用いた新しい枠組みを導入する。 CMAB-MTは既存のCMABと比べ、モデリング能力を高めるだけでなく、多変量確率変数の異なる統計特性を活用することで結果を改善することができる。本フレームワークは, エピソード強化学習(RL)や商品分布の確率的最大カバレッジなど, 応用として多くの重要な問題を含むことができる。
論文参考訳（メタデータ） (2024-06-03T14:48:53Z)
A Decision-Language Model (DLM) for Dynamic Restless Multi-Armed Bandit Tasks in Public Health [29.894488663882328]
大規模言語モデル(LLM)は、ロボット制御とナビゲーションの領域にまたがる包括的な自動プランナーとして登場した。本稿では,RMAB ポリシーを動的に微調整する RMAB のための決定言語モデル (DLM) を提案する。
論文参考訳（メタデータ） (2024-02-22T18:58:27Z)
Towards a Pretrained Model for Restless Bandits via Multi-arm Generalization [32.90636136408938]
Restless Multi-arm bandits (RMAB) は、医療、オンライン広告、密猟などの分野で広く利用されているリソース割り当て問題である。本研究では,これまで見つからなかった広範囲なRMABに対して,一般的なゼロショット能力を有するニューラルネットワークベース事前学習モデル(PreFeRMAB)を開発した。
論文参考訳（メタデータ） (2023-10-23T03:16:32Z)
Limited Resource Allocation in a Non-Markovian World: The Case of Maternal and Child Healthcare [27.812174610119452]
低リソース環境におけるスケジューリング介入の問題点を考察し,順応性やエンゲージメントを高めることを目的とする。過去の研究は、この問題に対する数種類のRestless Multi-armed Bandit (RMAB) ベースのソリューションの開発に成功している。我々のパートナーであるNGO ARMMAN の母体健康意識プログラムにおける実世界データに対する Markov の仮定から大きく逸脱した。一般化された非マルコフ的RMAB設定に取り組むために、(i)各参加者の軌跡を時系列としてモデル化し、(ii)時系列予測モデルのパワーを利用して将来の状態を予測し、(iii)時間を提案する。
論文参考訳（メタデータ） (2023-05-22T02:26:29Z)
Multi-task Paired Masking with Alignment Modeling for Medical Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文参考訳（メタデータ） (2023-05-13T13:53:48Z)
Efficient Resource Allocation with Fairness Constraints in Restless Multi-Armed Bandits [8.140037969280716]
Restless Multi-Armed Bandits (RMAB)は、公衆衛生介入における意思決定問題を表現するための適応モデルである。本稿では,RMAB意思決定が期待値の最大化を図りつつ,異なるアームに対して公平であることを保証することに関心がある。
論文参考訳（メタデータ） (2022-06-08T13:28:29Z)
Robust Restless Bandits: Tackling Interval Uncertainty with Deep Reinforcement Learning [31.515757763077065]
我々は、レスレス・マルチアーム・バンディット(RMAB)の一般化であるRobust Restless Banditsを紹介する。遷移が区間不確実性によって与えられる場合、最小限の後悔目標に対する解を開発する。 RMABPPOはRMABを解くための新しい深層強化学習アルゴリズムである。
論文参考訳（メタデータ） (2021-07-04T17:21:26Z)
The Medkit-Learn(ing) Environment: Medical Decision Modelling through Simulation [81.72197368690031]
医用シーケンシャルな意思決定に特化して設計された新しいベンチマークスイートを提案する。 Medkit-Learn(ing) Environmentは、高忠実度合成医療データに簡単かつ簡単にアクセスできるPythonパッケージである。
論文参考訳（メタデータ） (2021-06-08T10:38:09Z)
Scalable Bayesian Inverse Reinforcement Learning [93.27920030279586]
我々はAVRIL(Adroximate Variational Reward Imitation Learning)を紹介する。本手法は,逆強化学習問題の誤った性質に対処する。本手法を従来の制御シミュレーションと並行して実際の医療データに適用し,現在の手法の範囲を超えた環境におけるベイズ報酬推論を実証する。
論文参考訳（メタデータ） (2021-02-12T12:32:02Z)
Clinical Temporal Relation Extraction with Probabilistic Soft Logic Regularization and Global Inference [50.029659413650194]
既存のメソッドは、高価な機能エンジニアリングを必要とするか、イベント間のグローバルな依存関係をモデル化できない。本稿では,確率論的ソフト論理規則化とグローバル推論を用いた新しい臨床時間緩和法を提案する。
論文参考訳（メタデータ） (2020-12-16T08:23:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。