論文の概要: A Robust Mixed-Effects Bandit Algorithm for Assessing Mobile Health Interventions
- arxiv url: http://arxiv.org/abs/2312.06403v3
- Date: Fri, 7 Jun 2024 01:18:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 20:36:48.837666
- Title: A Robust Mixed-Effects Bandit Algorithm for Assessing Mobile Health Interventions
- Title(参考訳): 移動体健康対策評価のための帯域幅アルゴリズムのロバスト混合効果
- Authors: Easton K. Huch, Jieru Shi, Madeline R. Abbott, Jessica R. Golbus, Alexander Moreno, Walter H. Dempsey,
- Abstract要約: DML-TS-NNR(DML-TS-NNR)は、モバイルヘルス介入のためのコンテキスト的帯域幅アルゴリズムである。
参加者の不均一性、非定常性、報酬の非線形性といった問題に対処する。
そこで本研究では,DML-TS-NNRアルゴリズムのシミュレーションおよび2つのオフ政治評価研究において,優れた性能を示す。
- 参考スコア(独自算出の注目度): 39.8207428422509
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mobile health leverages personalized, contextually-tailored interventions optimized through bandit and reinforcement learning algorithms. Despite its promise, challenges like participant heterogeneity, nonstationarity, and nonlinearity in rewards hinder algorithm performance. We propose a robust contextual bandit algorithm, termed "DML-TS-NNR", that simultaneously addresses these challenges via (1) modeling the differential reward with user- and time-specific incidental parameters, (2) network cohesion penalties, and (3) debiased machine learning for flexible estimation of baseline rewards. We establish a high-probability regret bound that depends solely on the dimension of the differential reward model. This feature enables us to achieve robust regret bounds even when the baseline reward is highly complex. We demonstrate the superior performance of the DML-TS-NNR algorithm in a simulation and two off-policy evaluation studies.
- Abstract(参考訳): モバイルヘルスは、バンディットと強化学習アルゴリズムによって最適化された、パーソナライズされたコンテキストに合わせて調整された介入を活用する。
その約束にもかかわらず、参加者の不均一性、非定常性、報酬の非線形性といった課題はアルゴリズムのパフォーマンスを妨げる。
本稿では,(1)ユーザと時間固有のインシデントパラメータによる差分報酬のモデル化,(2)ネットワーク結合のペナルティ,(3)ベースライン報酬のフレキシブルな推定のためのデバイアスド機械学習などにより,これらの課題に同時に対処する,堅牢なコンテキスト付きバンディットアルゴリズム"DML-TS-NNR"を提案する。
差分報酬モデルの次元にのみ依存する高い確率的後悔境界を確立する。
この機能により、ベースライン報酬が非常に複雑である場合でも、堅牢な後悔境界を達成することができる。
そこで本研究では,DML-TS-NNRアルゴリズムのシミュレーションおよび2つのオフ政治評価研究において,優れた性能を示す。
関連論文リスト
- Feature Attenuation of Defective Representation Can Resolve Incomplete Masking on Anomaly Detection [1.0358639819750703]
教師なし異常検出(UAD)研究では、計算効率が高くスケーラブルなソリューションを開発する必要がある。
再建・塗り替えのアプローチを再考し、強みと弱みを分析して改善する。
異常再構成の特徴情報を減衰させる2つの層のみを用いるFADeR(Feature Attenuation of Defective Representation)を提案する。
論文 参考訳(メタデータ) (2024-07-05T15:44:53Z) - Reward-Punishment Reinforcement Learning with Maximum Entropy [3.123049150077741]
本稿では,長期政策エントロピーの最適化と報奨助成強化学習の目的を統合するソフトなDeep MaxPain'(SoftDMP)アルゴリズムを提案する。
我々のモチベーションは、従来の max' および min' 演算子を超えたアクション値の更新に使用される演算子のよりスムーズなバリエーションを促進することである。
論文 参考訳(メタデータ) (2024-05-20T05:05:14Z) - Robust Stochastically-Descending Unrolled Networks [85.6993263983062]
Deep Unrolling(ディープ・アンローリング)は、トレーニング可能なニューラルネットワークの層に切り捨てられた反復アルゴリズムをアンロールする、新たな学習最適化手法である。
アンロールネットワークの収束保証と一般化性は、いまだにオープンな理論上の問題であることを示す。
提案した制約の下で訓練されたアンロールアーキテクチャを2つの異なるアプリケーションで数値的に評価する。
論文 参考訳(メタデータ) (2023-12-25T18:51:23Z) - Deep Learning Meets Adaptive Filtering: A Stein's Unbiased Risk
Estimator Approach [13.887632153924512]
本稿では,Deep RLSとDeep EASIというタスクベースのディープラーニングフレームワークを紹介する。
これらのアーキテクチャは、元のアルゴリズムの繰り返しをディープニューラルネットワークの層に変換し、効率的なソース信号推定を可能にする。
性能をさらに向上するために、我々は、スタインの非バイアスリスク推定器(SURE)に基づく代理損失関数を用いた、これらの深層無ロールネットワークのトレーニングを提案する。
論文 参考訳(メタデータ) (2023-07-31T14:26:41Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Evolving Constrained Reinforcement Learning Policy [5.4444944707433525]
本稿では,報酬と制約違反とを適応的にバランスする,進化的制約付き強化学習アルゴリズムを提案する。
ロボット制御ベンチマーク実験により、ECRLは最先端のアルゴリズムと比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-04-19T03:54:31Z) - Anti-Exploration by Random Network Distillation [63.04360288089277]
ランダムネットワーク蒸留 (RND) の条件付けは, 不確実性推定器として用いるのに十分な識別性がないことを示す。
この制限は、FiLM(Feature-wise Linear Modulation)に基づく条件付けによって回避できることを示す。
D4RLベンチマークで評価したところ、アンサンブルベースの手法に匹敵する性能を達成でき、アンサンブルのない手法よりも広いマージンで性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-01-31T13:18:33Z) - On Efficient Uncertainty Estimation for Resource-Constrained Mobile
Applications [0.0]
予測の不確実性は、モデル予測を補完し、下流タスクの機能を改善します。
Axolotlフレームワークを用いてモンテカルロ・ドロップアウト(MCDO)モデルを構築することでこの問題に対処する。
我々は,(1)CIFAR10データセットを用いた多クラス分類タスク,(2)より複雑な人体セグメンテーションタスクについて実験を行った。
論文 参考訳(メタデータ) (2021-11-11T22:24:15Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。