論文の概要: Designing Reinforcement Learning Algorithms for Digital Interventions:
Pre-implementation Guidelines
- arxiv url: http://arxiv.org/abs/2206.03944v1
- Date: Wed, 8 Jun 2022 15:05:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-09 16:59:42.184504
- Title: Designing Reinforcement Learning Algorithms for Digital Interventions:
Pre-implementation Guidelines
- Title(参考訳): デジタル介入のための強化学習アルゴリズムの設計:事前実装ガイドライン
- Authors: Anna L. Trella, Kelly W. Zhang, Inbal Nahum-Shani, Vivek Shetty,
Finale Doshi-Velez, Susan A. Murphy
- Abstract要約: オンライン強化学習アルゴリズムは、モバイル健康とオンライン教育の分野におけるデジタル介入のパーソナライズにますます利用されている。
これらの設定でRLアルゴリズムを設計およびテストする際の一般的な課題は、RLアルゴリズムがリアルタイム制約下で安定して学習および実行できることである。
私たちは、機械学習のベストプラクティスと教師あり学習の統計を取り入れたデータサイエンスフレームワークであるPCS(Predictability, Computability, Stability)フレームワークを拡張します。
- 参考スコア(独自算出の注目度): 24.283342018185028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online reinforcement learning (RL) algorithms are increasingly used to
personalize digital interventions in the fields of mobile health and online
education. Common challenges in designing and testing an RL algorithm in these
settings include ensuring the RL algorithm can learn and run stably under
real-time constraints, and accounting for the complexity of the environment,
e.g., a lack of accurate mechanistic models for the user dynamics. To guide how
one can tackle these challenges, we extend the PCS (Predictability,
Computability, Stability) framework, a data science framework that incorporates
best practices from machine learning and statistics in supervised learning (Yu
and Kumbier, 2020), to the design of RL algorithms for the digital
interventions setting. Further, we provide guidelines on how to design
simulation environments, a crucial tool for evaluating RL candidate algorithms
using the PCS framework. We illustrate the use of the PCS framework for
designing an RL algorithm for Oralytics, a mobile health study aiming to
improve users' tooth-brushing behaviors through the personalized delivery of
intervention messages. Oralytics will go into the field in late 2022.
- Abstract(参考訳): オンライン強化学習(RL)アルゴリズムは、モバイル健康とオンライン教育の分野におけるデジタル介入のパーソナライズにますます利用されている。
これらの設定でRLアルゴリズムを設計し、テストする際の一般的な課題は、RLアルゴリズムがリアルタイムの制約の下で安定して学習し、実行できるようにすること、環境の複雑さを考慮することである。
これらの課題にどのように対処できるかをガイドするために、私たちは、教師付き学習(Yu and Kumbier, 2020)における機械学習と統計学からのベストプラクティスを取り入れたデータサイエンスフレームワークであるPCS(Predictability, Computability, stability)フレームワークを、デジタル介入設定のためのRLアルゴリズムの設計に拡張しました。
さらに、PCSフレームワークを用いてRL候補アルゴリズムを評価するための重要なツールであるシミュレーション環境の設計ガイドラインを提供する。
介入メッセージのパーソナライズによるユーザの歯磨き行動を改善することを目的としたモバイル健康調査であるOralyticsのためのRLアルゴリズムの設計にPCSフレームワークを使用する方法について述べる。
Oralyticsは2022年末にこの分野に進出する。
関連論文リスト
- Monitoring Fidelity of Online Reinforcement Learning Algorithms in Clinical Trials [20.944037982124037]
本稿では,オンラインRLアルゴリズムを臨床試験に導入するための重要な要件として,アルゴリズムの忠実性を提案する。
我々は,アルゴリズム開発者や臨床研究者がアルゴリズムの忠実性を確保するのに役立つ,事前デプロイ計画とリアルタイムモニタリングのためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-26T20:19:14Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Deep reinforcement learning for machine scheduling: Methodology, the
state-of-the-art, and future directions [2.4541568670428915]
マシンスケジューリングは、製造ルールとジョブ仕様に準拠しながら、マシンへのジョブ割り当てを最適化することを目的としている。
人工知能の重要な構成要素であるDeep Reinforcement Learning (DRL)は、ゲームやロボティクスなど、さまざまな分野において有望であることを示している。
本稿では、DRLに基づくアプローチの総合的なレビューと比較を行い、その方法論、応用、利点、限界を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T22:45:09Z) - PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [71.63186089279218]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - Did we personalize? Assessing personalization by an online reinforcement
learning algorithm using resampling [9.745543921550748]
強化学習(Reinforcement Learning, RL)は、デジタルヘルスにおける治療のシーケンスをパーソナライズし、ユーザーがより健康的な行動を採用するのを支援するために用いられる。
オンラインRLは、各ユーザの履歴応答に基づいて学習するので、この問題に対して有望なデータ駆動型アプローチである。
我々は,RLアルゴリズムが実世界の展開に最適化された介入に含まれるべきかどうかを評価する。
論文 参考訳(メタデータ) (2023-04-11T17:20:37Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Constraint Sampling Reinforcement Learning: Incorporating Expertise For
Faster Learning [43.562783189118]
本稿では,人間の洞察を高速学習に組み込むための実践的アルゴリズムを提案する。
我々のアルゴリズムであるConstraint Sampling Reinforcement Learning (CSRL)は、事前のドメイン知識をRLポリシーの制約/制約として組み込む。
すべてのケースにおいて、CSRLはベースラインよりも早く良いポリシーを学ぶ。
論文 参考訳(メタデータ) (2021-12-30T22:02:42Z) - Reinforcement Learning for Datacenter Congestion Control [50.225885814524304]
渋滞制御アルゴリズムの成功は、レイテンシとネットワーク全体のスループットを劇的に改善する。
今日まで、このような学習ベースのアルゴリズムはこの領域で実用的な可能性を示さなかった。
実世界のデータセンターネットワークの様々な構成に一般化することを目的としたRLに基づくアルゴリズムを考案する。
本稿では,この手法が他のRL手法よりも優れており,トレーニング中に見られなかったシナリオに一般化可能であることを示す。
論文 参考訳(メタデータ) (2021-02-18T13:49:28Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。