論文の概要: A Bayesian Approach to Online Learning for Contextual Restless Bandits
with Applications to Public Health
- arxiv url: http://arxiv.org/abs/2402.04933v1
- Date: Wed, 7 Feb 2024 15:11:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 14:50:49.070585
- Title: A Bayesian Approach to Online Learning for Contextual Restless Bandits
with Applications to Public Health
- Title(参考訳): コンテキストレスバンドのオンライン学習へのベイズ的アプローチと公衆衛生への応用
- Authors: Biyonka Liang, Lily Xu, Aparna Taneja, Milind Tambe, Lucas Janson
- Abstract要約: 本稿では,RMABのオンライン強化学習手法としてBayesian Learning for Contextual RMABs(BCoR)を提案する。
BCoRは, 実験条件下での既存手法に比べて, かなり高い有限サンプル性能を実現することを示す。
- 参考スコア(独自算出の注目度): 39.513593558052314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Restless multi-armed bandits (RMABs) are used to model sequential resource
allocation in public health intervention programs. In these settings, the
underlying transition dynamics are often unknown a priori, requiring online
reinforcement learning (RL). However, existing methods in online RL for RMABs
cannot incorporate properties often present in real-world public health
applications, such as contextual information and non-stationarity. We present
Bayesian Learning for Contextual RMABs (BCoR), an online RL approach for RMABs
that novelly combines techniques in Bayesian modeling with Thompson sampling to
flexibly model a wide range of complex RMAB settings, such as contextual and
non-stationary RMABs. A key contribution of our approach is its ability to
leverage shared information within and between arms to learn unknown RMAB
transition dynamics quickly in budget-constrained settings with relatively
short time horizons. Empirically, we show that BCoR achieves substantially
higher finite-sample performance than existing approaches over a range of
experimental settings, including one constructed from a real-world public
health campaign in India.
- Abstract(参考訳): Restless Multi-armed bandits (RMAB) は公衆衛生介入プログラムにおける逐次的資源配分をモデル化するために用いられる。
これらの設定では、基礎となる遷移力学は、しばしば事前の未知であり、オンライン強化学習(RL)を必要とする。
しかし、RMABのオンラインRLにおける既存の手法は、文脈情報や非定常性のような現実世界の公衆衛生アプリケーションにしばしば存在するプロパティを組み込むことはできない。
本稿では,bayesian learning for context rmabs (bcor)を提案する。これはrmabsのオンラインrlアプローチであり,bayesian modelingのテクニックとトンプソンサンプリングを新規に組み合わせ,コンテキストや非定常rmabsといった複雑なrmab設定を柔軟にモデル化する。
我々のアプローチの重要な貢献は、比較的短い時間軸で予算制限された設定で、未知のrmab遷移ダイナミクスを素早く学ぶために腕内と腕間の共有情報を活用する能力です。
実験により,BCoRは,インドにおける実際の公衆衛生キャンペーンから構築したものを含む,様々な実験環境において,既存のアプローチよりもはるかに高い有限サンプル性能を実現していることを示す。
関連論文リスト
- Towards an Information Theoretic Framework of Context-Based Offline
Meta-Reinforcement Learning [50.976910714839065]
コンテクストベースのOMRL(COMRL)は,効率的なタスク表現を前提としたユニバーサルポリシーの学習を目的としている。
我々はCOMRLアルゴリズムが,タスク変数$boldsymbolM$と,その潜在表現$boldsymbolZ$の相互情報目的を,様々な近似境界を実装して最適化していることを示す。
理論的な洞察と情報ボトルネックの原理に基づいて、我々はUNICORNと呼ばれる新しいアルゴリズムに到達し、RLベンチマークの幅広い範囲にわたって顕著な一般化を示す。
論文 参考訳(メタデータ) (2024-02-04T09:58:42Z) - Towards a Pretrained Model for Restless Bandits via Multi-arm
Generalization [32.90636136408938]
Restless Multi-arm bandits (RMAB) は、医療、オンライン広告、密猟などの分野で広く利用されているリソース割り当て問題である。
本研究では,これまで見つからなかった広範囲なRMABに対して,一般的なゼロショット能力を有するニューラルネットワークベース事前学習モデル(PreFeRMAB)を開発した。
論文 参考訳(メタデータ) (2023-10-23T03:16:32Z) - DeCUR: decoupling common & unique representations for multimodal
self-supervision [23.44643489648528]
マルチモーダルな自己教師型学習のためのDecoupling Common and Unique Representations (DeCUR)を提案する。
モーダル内埋め込みとモーダル内埋め込みを区別することにより、DeCURは異なるモーダル間で補完情報を統合するように訓練される。
シーン分類とセマンティックセグメンテーションの下流タスクにおける一貫した利点を示す。
論文 参考訳(メタデータ) (2023-09-11T08:35:23Z) - Policy Representation via Diffusion Probability Model for Reinforcement
Learning [67.56363353547775]
拡散確率モデルを用いて政策表現の理論的基礎を構築する。
本稿では,拡散政策の多様性を理解するための理論を提供する,拡散政策の収束保証について述べる。
本研究では,Diffusion POlicyを用いたモデルフリーオンラインRLの実装であるDIPOを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:23:41Z) - Efficient Resource Allocation with Fairness Constraints in Restless
Multi-Armed Bandits [8.140037969280716]
Restless Multi-Armed Bandits (RMAB)は、公衆衛生介入における意思決定問題を表現するための適応モデルである。
本稿では,RMAB意思決定が期待値の最大化を図りつつ,異なるアームに対して公平であることを保証することに関心がある。
論文 参考訳(メタデータ) (2022-06-08T13:28:29Z) - Optimistic Whittle Index Policy: Online Learning for Restless Bandits [31.312043984489666]
遷移力学を学習するためのWhittleインデックスポリシーに基づく,最初のオンライン学習アルゴリズムを提案する。
我々のアルゴリズムUCWhittleは、RMABを未知の遷移で解くために、サブ線形$O(sqrtT log T)$の頻繁な後悔を実現する。
論文 参考訳(メタデータ) (2022-05-30T18:32:20Z) - On Continual Model Refinement in Out-of-Distribution Data Streams [64.62569873799096]
現実世界の自然言語処理(NLP)モデルは、アウト・オブ・ディストリビューション(OOD)データストリームの予測エラーを修正するために、継続的に更新する必要がある。
既存の継続学習(CL)問題設定は、そのような現実的で複雑なシナリオをカバーできない。
連続モデル改良(CMR)と呼ばれる新しいCL問題定式化を提案する。
論文 参考訳(メタデータ) (2022-05-04T11:54:44Z) - Robust Restless Bandits: Tackling Interval Uncertainty with Deep
Reinforcement Learning [31.515757763077065]
我々は、レスレス・マルチアーム・バンディット(RMAB)の一般化であるRobust Restless Banditsを紹介する。
遷移が区間不確実性によって与えられる場合、最小限の後悔目標に対する解を開発する。
RMABPPOはRMABを解くための新しい深層強化学習アルゴリズムである。
論文 参考訳(メタデータ) (2021-07-04T17:21:26Z) - Scalable Bayesian Inverse Reinforcement Learning [93.27920030279586]
我々はAVRIL(Adroximate Variational Reward Imitation Learning)を紹介する。
本手法は,逆強化学習問題の誤った性質に対処する。
本手法を従来の制御シミュレーションと並行して実際の医療データに適用し,現在の手法の範囲を超えた環境におけるベイズ報酬推論を実証する。
論文 参考訳(メタデータ) (2021-02-12T12:32:02Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。