Fugu-MT 論文翻訳(概要): Bayesian Collaborative Bandits with Thompson Sampling for Improved Outreach in Maternal Health Program

論文の概要: Bayesian Collaborative Bandits with Thompson Sampling for Improved Outreach in Maternal Health Program

arxiv url: http://arxiv.org/abs/2410.21405v1
Date: Mon, 28 Oct 2024 18:08:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:41.542307
Title: Bayesian Collaborative Bandits with Thompson Sampling for Improved Outreach in Maternal Health Program
Title（参考訳）: トンプソンサンプリングを併用したベイジアン協調バンドの母体保健プログラムにおけるアウトリーチの改善
Authors: Arpan Dasgupta, Gagan Jain, Arun Suggala, Karthikeyan Shanmugam, Milind Tambe, Aparna Taneja,
Abstract要約: モバイルヘルス(mHealth)プログラムは、受益者への自動健康情報呼び出しのタイミングを最適化する上で、重要な課題に直面している。本稿では,この協調バンディット問題に対するトンプソンサンプリングを用いた原理的アプローチを提案する。我々は,世界最大規模の母体mHealthプログラムから,実世界のデータセット上での最先端のベースラインを大幅に改善したことを示す。
参考スコア（独自算出の注目度）: 36.10003434625494
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Mobile health (mHealth) programs face a critical challenge in optimizing the timing of automated health information calls to beneficiaries. This challenge has been formulated as a collaborative multi-armed bandit problem, requiring online learning of a low-rank reward matrix. Existing solutions often rely on heuristic combinations of offline matrix completion and exploration strategies. In this work, we propose a principled Bayesian approach using Thompson Sampling for this collaborative bandit problem. Our method leverages prior information through efficient Gibbs sampling for posterior inference over the low-rank matrix factors, enabling faster convergence. We demonstrate significant improvements over state-of-the-art baselines on a real-world dataset from the world's largest maternal mHealth program. Our approach achieves a $16\%$ reduction in the number of calls compared to existing methods and a $47$\% reduction compared to the deployed random policy. This efficiency gain translates to a potential increase in program capacity by $0.5-1.4$ million beneficiaries, granting them access to vital ante-natal and post-natal care information. Furthermore, we observe a $7\%$ and $29\%$ improvement in beneficiary retention (an extremely hard metric to impact) compared to state-of-the-art and deployed baselines, respectively. Synthetic simulations further demonstrate the superiority of our approach, particularly in low-data regimes and in effectively utilizing prior information. We also provide a theoretical analysis of our algorithm in a special setting using Eluder dimension.
Abstract（参考訳）: モバイルヘルス(mHealth)プログラムは、受益者への自動健康情報呼び出しのタイミングを最適化する上で、重要な課題に直面している。この課題は、低ランク報酬行列のオンライン学習を必要とする、協調的なマルチアームバンディット問題として定式化されている。既存のソリューションは、しばしばオフライン行列補完と探索戦略のヒューリスティックな組み合わせに依存している。本研究では,この協調バンディット問題に対して,トンプソンサンプリングを用いたベイズ的手法を提案する。提案手法は,低ランク行列因子に対する後方推測のための効率的なギブスサンプリングにより事前情報を活用することにより,より高速な収束を実現する。我々は,世界最大規模の母体mHealthプログラムから,実世界のデータセット上での最先端のベースラインを大幅に改善したことを示す。提案手法は,既存手法と比較して16 %の呼び出し数削減を実現し,デプロイしたランダムポリシーに比べて47 %の削減を実現している。この効率向上により、プログラムの能力が0.5～1.4ドル向上し、重要な産後医療情報にアクセスできるようになる。さらに、最先端のベースラインと展開ベースラインと比較して、受益保持(影響の非常に難しい指標)の改善は7\%と29\%である。合成シミュレーションは、特に低データ体制における我々のアプローチの優位性をさらに証明し、先行情報を効果的に活用する。また,エルダー次元を用いた特殊条件下でのアルゴリズムの理論的解析も行う。

関連論文リスト

Generalized Linear Bandits: Almost Optimal Regret with One-Pass Update [60.414548453838506]
非線形リンク関数を組み込んで古典線形モデルを拡張したコンテキスト型多武装バンディットフレームワークである一般化線形バンディット問題(GLB)について検討する。 GLBは現実世界のシナリオに広く適用できるが、その非線形性は計算効率と統計効率の両方を達成する上で大きな課題をもたらす。本稿では,$mathcalO(1)$時間と1ラウンドあたりの空間複雑度をほぼ最適に再現するアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-07-16T02:24:21Z)
Fair Algorithms with Probing for Multi-Agent Multi-Armed Bandits [15.700062892888084]
我々は、割り当て前に選択した武器に関する情報を戦略的に収集する新しい探索フレームワークを導入する。報奨分布が知られているオフライン環境では、準モジュラ特性を利用して、証明可能な性能境界を持つ欲求探索アルゴリズムを設計する。より複雑なオンライン設定では、公平性を維持しながらサブ線形後悔を実現するアルゴリズムを開発する。
論文参考訳（メタデータ） (2025-06-17T21:43:21Z)
Self-Regulation and Requesting Interventions [63.5863047447313]
介入要求のための"helper"ポリシーをトレーニングするオフラインフレームワークを提案する。 PRMによる最適介入タイミングを判定し,これらのラベル付き軌道上でヘルパーモデルを訓練する。このオフラインアプローチは、トレーニング中のコストのかかる介入コールを大幅に削減する。
論文参考訳（メタデータ） (2025-02-07T00:06:17Z)
Optimizing Vital Sign Monitoring in Resource-Constrained Maternal Care: An RL-Based Restless Bandit Approach [31.228987526386558]
ワイヤレスのバイタルサインモニタリングデバイスは、継続的監視のための労働効率の高いソリューションを提供する。本稿では,Restless Multi-Armed Bandit パラダイムの変種としてモデル化することで,この問題に対するアロケーションアルゴリズムを考案する。シミュレーションでは、我々の手法が最高のベースラインを最大4ドルまで上回ります。
論文参考訳（メタデータ） (2024-10-10T21:20:07Z)
Preference-Based Multi-Agent Reinforcement Learning: Data Coverage and Algorithmic Techniques [65.55451717632317]
PbMARL(Preference-based Multi-Agent Reinforcement Learning)について検討する。一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ平衡を同定する。以上の結果から,PbMARLの多面的アプローチが示唆された。
論文参考訳（メタデータ） (2024-09-01T13:14:41Z)
A Federated Online Restless Bandit Framework for Cooperative Resource Allocation [23.698976872351576]
MRPの未知系力学を用いた協調資源配分問題について検討する。我々は、このマルチエージェントオンラインRMAB問題を解決するために、フェデレートトンプソン対応Whittle Index(FedTSWI)アルゴリズムを作成した。数値計算の結果,提案アルゴリズムは,ベースラインと比較して,$mathcalO(sqrtTlog(T))$の高速収束率と性能の向上を実現している。
論文参考訳（メタデータ） (2024-06-12T08:34:53Z)
Optimal Multi-Fidelity Best-Arm Identification [65.23078799972188]
バンディットのベストアーム識別において、アルゴリズムは、できるだけ早く特定の精度で、最高平均報酬の腕を見つけることを任務とする。マルチフィデリティのベストアーム識別について検討し、低コストで低いフィデリティ(正確な平均推定値を持たない)で腕をサンプリングすることを選択できる。この問題に対処するためのいくつかの方法が提案されているが、その最適性は、特に最適な腕を特定するのに必要な総コストのゆるやかな下限のため、未解決のままである。
論文参考訳（メタデータ） (2024-06-05T08:02:40Z)
Pure Exploration in Asynchronous Federated Bandits [57.02106627533004]
マルチアームバンディットとリニアバンディットのフェデレートされた純粋な探索問題について検討し、M$エージェントが中央サーバとの通信を通じて最適なアームを協調的に識別する方法について検討した。信頼度を固定した純粋探索のための非同期マルチアームバンディットおよび線形バンディットアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-17T06:04:00Z)
High-dimensional Contextual Bandit Problem without Sparsity [8.782204980889077]
本稿では,この問題に対処し,その性能を検証するための探索列コミット(EtC)アルゴリズムを提案する。我々は、ETCアルゴリズムの最適レートを$T$で導出し、探索とエクスプロイトのバランスをとることで、このレートを実現できることを示す。本稿では,最適バランスを適応的に求める適応探索定理 (AEtC) アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-06-19T15:29:32Z)
Cost-efficient Crowdsourcing for Span-based Sequence Labeling: Worker Selection and Data Augmentation [30.179968217703635]
本稿では,新たなクラウドソーシング作業者選択アルゴリズムを導入し,アノテーションの品質向上とコスト削減を図る。提案アルゴリズムは,作業者選択にコンビニアル・マルチアーマッド・バンドイット(CMAB)アプローチ,コスト効率のよいフィードバック機構を利用する。
論文参考訳（メタデータ） (2023-05-11T09:40:24Z)
Sequential Information Design: Markov Persuasion Process and Its Efficient Reinforcement Learning [156.5667417159582]
本稿では,逐次情報設計の新たなモデル,すなわちマルコフ説得過程(MPP)を提案する。 MPPのプランニングは、ミオピックレシーバーに同時に説得されるシグナルポリシーを見つけ、送信者の最適な長期累積ユーティリティを誘導する、というユニークな課題に直面している。我々は,楽観主義と悲観主義の両原理の新たな組み合わせを特徴とする,実証可能な効率のよい非回帰学習アルゴリズム,Optimism-Pessimism Principle for Persuasion Process (OP4) を設計する。
論文参考訳（メタデータ） (2022-02-22T05:41:43Z)
Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文参考訳（メタデータ） (2021-10-21T15:25:15Z)
On Reward-Free RL with Kernel and Neural Function Approximations: Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文参考訳（メタデータ） (2021-10-19T07:26:33Z)
Efficient Algorithms for Finite Horizon and Streaming Restless Multi-Armed Bandit Problems [30.759279275710078]
インデックスベースのソリューションを計算するための新しいスケーラブルなアプローチを提案します。コストのかかる有限地平線問題を解くことなく,指数減衰をキャプチャするアルゴリズムを提供する。当社のアルゴリズムは、これらのタスクにおける既存の方法よりも150倍以上のスピードアップを実現し、パフォーマンスを損ないません。
論文参考訳（メタデータ） (2021-03-08T13:10:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。