論文の概要: Collapsing Bandits and Their Application to Public Health Interventions
- arxiv url: http://arxiv.org/abs/2007.04432v1
- Date: Sun, 5 Jul 2020 00:33:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 07:46:06.887955
- Title: Collapsing Bandits and Their Application to Public Health Interventions
- Title(参考訳): バンドの衝突と公衆衛生対策への応用
- Authors: Aditya Mate, Jackson A. Killian, Haifeng Xu, Andrew Perrault, Milind
Tambe
- Abstract要約: Collpasing Banditsは、新しいレスレスマルチアーム・バンディット(RMAB)セットで、各アームがバイナリ状態のマルコフ過程に従う。
我々は、RMABのWhittle index技術を用いて、Colapsing Bandits問題がインデックス化可能である条件を導出する。
本アルゴリズムは,最先端のRMAB技術と比較して3次精度の高速化を実現する。
- 参考スコア(独自算出の注目度): 45.45852113386041
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose and study Collpasing Bandits, a new restless multi-armed bandit
(RMAB) setting in which each arm follows a binary-state Markovian process with
a special structure: when an arm is played, the state is fully observed, thus
"collapsing" any uncertainty, but when an arm is passive, no observation is
made, thus allowing uncertainty to evolve. The goal is to keep as many arms in
the "good" state as possible by planning a limited budget of actions per round.
Such Collapsing Bandits are natural models for many healthcare domains in which
workers must simultaneously monitor patients and deliver interventions in a way
that maximizes the health of their patient cohort. Our main contributions are
as follows: (i) Building on the Whittle index technique for RMABs, we derive
conditions under which the Collapsing Bandits problem is indexable. Our
derivation hinges on novel conditions that characterize when the optimal
policies may take the form of either "forward" or "reverse" threshold policies.
(ii) We exploit the optimality of threshold policies to build fast algorithms
for computing the Whittle index, including a closed-form. (iii) We evaluate our
algorithm on several data distributions including data from a real-world
healthcare task in which a worker must monitor and deliver interventions to
maximize their patients' adherence to tuberculosis medication. Our algorithm
achieves a 3-order-of-magnitude speedup compared to state-of-the-art RMAB
techniques while achieving similar performance.
- Abstract(参考訳): 我々は,各アームが特別な構造を持つ二元状態マルコフ過程に従う,新しいrestless multi-armed bandit(rmab)設定であるcollpasing banditsを提案し,研究している。
目標は、1ラウンドあたりの限られた行動予算を計画することで、できるだけ多くの武器を「良い」状態に保つことである。
このような崩壊するバンディットは、労働者が同時に患者を監視し、患者の健康を最大化する方法で介入を行なわなければならない多くの医療領域の自然なモデルである。
主な貢献は以下の通りである。
(i)RMABのWhittle index技術に基づいて、Colapsing Banditsの問題が指数化可能である条件を導出する。
我々の導出は、最適な政策が「前方」または「逆」のしきい値ポリシーの形式を取ると特徴づけられる新しい条件に基づいている。
(II)クローズドフォームを含むWhittleインデックスを高速に計算するアルゴリズムを構築するためにしきい値ポリシーの最適性を利用する。
(iii)患者が結核薬を服用することを最大化するために介入を行なわなければならない実世界の医療タスクのデータを含む、いくつかのデータ分布について評価する。
提案アルゴリズムは,最先端のRMAB技術と比較して3次精度向上を実現し,同様の性能を実現している。
関連論文リスト
- Best-Arm Identification in Unimodal Bandits [24.001611176749158]
本研究では, 固定信頼度ベストアーム識別問題について検討する。
我々は任意の境界の停止時間で2つ下げる。
腕の数に対する線形依存は、信頼性に依存しないコストでは避けられないことを示す。
論文 参考訳(メタデータ) (2024-11-04T09:05:11Z) - Robust Best-arm Identification in Linear Bandits [25.91361349646875]
線形報酬の場合のロバストベストアーム識別問題(RBAI)について検討する。
線形報酬を持つロバストなベストアーム識別問題に対して、インスタンス依存の下位境界を提案する。
本アルゴリズムは, 高齢者の年齢帯におけるロバストな服用値の同定に有効であることが証明された。
論文 参考訳(メタデータ) (2023-11-08T14:58:11Z) - Optimal Best Arm Identification with Fixed Confidence in Restless Bandits [66.700654953613]
本研究は,有限個の腕を持つレスレス・マルチアーム・バンディット・セッティングにおけるベスト・アーム識別について検討する。
各アームによって生成された離散時間データは、共通の有限状態空間で値を取る同質マルコフ連鎖を形成する。
その結果,あるマルコフ決定過程の長期的挙動の追跡とその状態-行動的訪問比率が,逆および達成可能性境界を解析するための重要な要素であることが示唆された。
論文 参考訳(メタデータ) (2023-10-20T10:04:05Z) - Limited Resource Allocation in a Non-Markovian World: The Case of
Maternal and Child Healthcare [27.812174610119452]
低リソース環境におけるスケジューリング介入の問題点を考察し,順応性やエンゲージメントを高めることを目的とする。
過去の研究は、この問題に対する数種類のRestless Multi-armed Bandit (RMAB) ベースのソリューションの開発に成功している。
我々のパートナーであるNGO ARMMAN の母体健康意識プログラムにおける実世界データに対する Markov の仮定から大きく逸脱した。
一般化された非マルコフ的RMAB設定に取り組むために、(i)各参加者の軌跡を時系列としてモデル化し、(ii)時系列予測モデルのパワーを利用して将来の状態を予測し、(iii)時間を提案する。
論文 参考訳(メタデータ) (2023-05-22T02:26:29Z) - Federated Best Arm Identification with Heterogeneous Clients [62.36929749450298]
中央サーバと複数のクライアントを備えた多腕バンディット・セッティングにおける腕の識別について検討した。
予測停止時間上の上限が乗算定数までの下限と一致するアルゴリズム(ほぼ最適アルゴリズムの場合)について示す。
本稿では,指数時間瞬間に通信する新しいアルゴリズムを提案し,ほぼ最適であることを実証する。
論文 参考訳(メタデータ) (2022-10-14T13:09:11Z) - Towards Soft Fairness in Restless Multi-Armed Bandits [8.140037969280716]
Restless Multi-armed bandits (RMAB)は、限られた資源を不確実性の下で割り当てるためのフレームワークである。
個人・地域・コミュニティ間の介入による飢餓を避けるため、まずソフトフェアネス制約を提供する。
次に、RMABのソフトフェアネス制約を強制するアプローチを提案する。
論文 参考訳(メタデータ) (2022-07-27T07:56:32Z) - Best Arm Identification in Restless Markov Multi-Armed Bandits [85.55466536537293]
マルチアームバンディット環境における最適な腕を特定することの問題点について検討する。
決定エンティティは、上限誤差確率を条件として、ベストアームのインデックスをできるだけ早く見つけることを希望する。
このポリシーは、$R$に依存する上限を達成し、$Rtoinfty$として単調に増加しないことを示す。
論文 参考訳(メタデータ) (2022-03-29T04:58:04Z) - Efficient Algorithms for Finite Horizon and Streaming Restless
Multi-Armed Bandit Problems [30.759279275710078]
インデックスベースのソリューションを計算するための新しいスケーラブルなアプローチを提案します。
コストのかかる有限地平線問題を解くことなく,指数減衰をキャプチャするアルゴリズムを提供する。
当社のアルゴリズムは、これらのタスクにおける既存の方法よりも150倍以上のスピードアップを実現し、パフォーマンスを損ないません。
論文 参考訳(メタデータ) (2021-03-08T13:10:31Z) - Optimal Best-arm Identification in Linear Bandits [79.3239137440876]
サンプルの複雑さが既知のインスタンス固有の下界と一致する単純なアルゴリズムを考案する。
既存のベストアーム識別戦略とは異なり、我々のアルゴリズムは武器の数に依存しない停止規則を用いる。
論文 参考訳(メタデータ) (2020-06-29T14:25:51Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。