論文の概要: reBandit: Random Effects based Online RL algorithm for Reducing Cannabis
Use
- arxiv url: http://arxiv.org/abs/2402.17739v1
- Date: Tue, 27 Feb 2024 18:18:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 15:07:11.079155
- Title: reBandit: Random Effects based Online RL algorithm for Reducing Cannabis
Use
- Title(参考訳): reBandit:大麻使用を減らすためのランダム効果に基づくオンラインRLアルゴリズム
- Authors: Susobhan Ghosh, Yongyi Guo, Pei-Yao Hung, Lara Coughlin, Erin Bonar,
Inbal Nahum-Shani, Maureen Walton, Susan Murphy
- Abstract要約: 大麻の使用と関連する大麻使用障害(CUD)は、世界中の公衆衛生上の問題を引き起こす。
我々はreBanditと呼ばれるオンライン強化学習(RL)アルゴリズムを開発し、パーソナライズされたモバイルヘルス介入を提供する。
- 参考スコア(独自算出の注目度): 3.2431712148637626
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The escalating prevalence of cannabis use, and associated cannabis-use
disorder (CUD), poses a significant public health challenge globally. With a
notably wide treatment gap, especially among emerging adults (EAs; ages 18-25),
addressing cannabis use and CUD remains a pivotal objective within the 2030
United Nations Agenda for Sustainable Development Goals (SDG). In this work, we
develop an online reinforcement learning (RL) algorithm called reBandit which
will be utilized in a mobile health study to deliver personalized mobile health
interventions aimed at reducing cannabis use among EAs. reBandit utilizes
random effects and informative Bayesian priors to learn quickly and efficiently
in noisy mobile health environments. Moreover, reBandit employs Empirical Bayes
and optimization techniques to autonomously update its hyper-parameters online.
To evaluate the performance of our algorithm, we construct a simulation testbed
using data from a prior study, and compare against commonly used algorithms in
mobile health studies. We show that reBandit performs equally well or better
than all the baseline algorithms, and the performance gap widens as population
heterogeneity increases in the simulation environment, proving its adeptness to
adapt to diverse population of study participants.
- Abstract(参考訳): 大麻の使用頻度の増大と関連する大麻使用障害(CUD)は、世界中の公衆衛生上の問題を引き起こす。
特に若年層(EA:18~25歳)では、特に大きな治療のギャップがあり、大麻の使用とCUDは、2030年の国連持続可能な開発目標(SDG)において重要な目標である。
本研究では,easにおける大麻使用を減らすことを目的としたパーソナライズされたモバイルヘルス介入を提供するために,モバイルヘルススタディで使用されるrebanditと呼ばれるオンライン強化学習(rl)アルゴリズムを開発した。
reBanditは無作為な効果と情報的ベイジアン事前を利用して、騒々しいモバイルの健康環境で迅速かつ効率的に学習する。
さらに、reBanditはEmpirical Bayesと最適化技術を使って、ハイパーパラメータをオンラインに自動更新する。
提案アルゴリズムの性能を評価するため,先行研究から得られたデータを用いてシミュレーションテストベッドを構築し,モバイル健康研究においてよく用いられるアルゴリズムと比較した。
我々は,reBanditがすべてのベースラインアルゴリズムと同等あるいは同等に動作することを示すとともに,シミュレーション環境における人口の不均一性の増加に伴い,性能ギャップが拡大し,多様な研究参加者に適応する能力が証明された。
関連論文リスト
- MiWaves Reinforcement Learning Algorithm [3.1092549626366828]
米国では、大麻の使用は他のどの年齢層よりも新興の成人(EA)(18-25歳)に多い。
我々は、パーソナライズされた介入プロンプトの配信を最適化する強化学習(RL)アルゴリズムであるMiWavesを開発した。
最終的なMiWaves RLアルゴリズムは2024年3月から5月にかけて臨床試験で展開された。
論文 参考訳(メタデータ) (2024-08-27T14:04:04Z) - Adaptive Interventions with User-Defined Goals for Health Behavior Change [17.688448640253494]
モバイルヘルスアプリケーションは、低コストでスケーラブルなヘルス行動変化促進のための有望な道を示す。
個人固有の目標、好み、生活状況に対するアドバイスを調整することは、健康コーチングの重要な要素である。
パーソナライズされた報酬関数に対応する新しいトンプソンサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-16T01:00:04Z) - Rethinking Population-assisted Off-policy Reinforcement Learning [7.837628433605179]
オフ政治強化学習アルゴリズムは、限られた探索のために局所最適への収束に苦慮する。
人口ベースのアルゴリズムは自然探索戦略を提供するが、ブラックボックス演算子は非効率である。
最近のアルゴリズムはこれら2つの手法を統合し、共有再生バッファを介してそれらを接続している。
論文 参考訳(メタデータ) (2023-05-04T15:53:00Z) - Data-pooling Reinforcement Learning for Personalized Healthcare
Intervention [20.436521180168455]
我々は、一般的な摂動値反復フレームワークに基づく新しいデータプール強化学習(RL)アルゴリズムを開発した。
提案アルゴリズムは,従来の手法では推定精度とは対照的に,(後悔によって測定された)決定性能と直接結びつくことの重み付けという,3つの主要な革新とともに,履歴データを適応的にプールする。
提案手法の理論的発展を実証的に優れた性能で実証し,未計画の読解を防止するために,解凍後介入の文脈におけるケーススタディにより検証した。
論文 参考訳(メタデータ) (2022-11-16T15:52:49Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Federated Offline Reinforcement Learning [55.326673977320574]
マルチサイトマルコフ決定プロセスモデルを提案する。
我々は,オフラインRLを対象とした最初のフェデレーション最適化アルゴリズムを設計する。
提案アルゴリズムでは,学習ポリシーの準最適性は,データが分散していないような速度に匹敵する,理論的保証を与える。
論文 参考訳(メタデータ) (2022-06-11T18:03:26Z) - Auto-FedRL: Federated Hyperparameter Optimization for
Multi-institutional Medical Image Segmentation [48.821062916381685]
Federated Learning(FL)は、明示的なデータ共有を避けながら協調的なモデルトレーニングを可能にする分散機械学習技術である。
本稿では,Auto-FedRLと呼ばれる,効率的な強化学習(RL)に基づくフェデレーションハイパーパラメータ最適化アルゴリズムを提案する。
提案手法の有効性は,CIFAR-10データセットと2つの実世界の医用画像セグメンテーションデータセットの不均一なデータ分割に対して検証される。
論文 参考訳(メタデータ) (2022-03-12T04:11:42Z) - Local Learning Matters: Rethinking Data Heterogeneity in Federated
Learning [61.488646649045215]
フェデレートラーニング(FL)は、クライアントのネットワーク(エッジデバイス)でプライバシ保護、分散ラーニングを行うための有望な戦略である。
論文 参考訳(メタデータ) (2021-11-28T19:03:39Z) - Deceive D: Adaptive Pseudo Augmentation for GAN Training with Limited
Data [125.7135706352493]
GAN(Generative Adversarial Network)は、高忠実度画像を合成するために、訓練に十分なデータを必要とする。
近年の研究では、差別者の過度な適合により、限られたデータでGANを訓練することは困難であることが示されている。
本稿では,APA (Adaptive Pseudo Augmentation) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-11-12T18:13:45Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Sample-Efficient Reinforcement Learning via Counterfactual-Based Data
Augmentation [15.451690870640295]
医療などのいくつかのシナリオでは、通常、各患者に利用可能なレコードはごくわずかであり、現在の強化学習アルゴリズムの適用を妨げる。
構造因果モデル(SCM)を利用して状態ダイナミクスをモデル化する,データ効率の高いRLアルゴリズムを提案する。
本研究は, 軽度条件下では反実結果が識別可能であり, 反実に基づく拡張データセット上のq学習が最適値関数に収束することを示す。
論文 参考訳(メタデータ) (2020-12-16T17:21:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。