論文の概要: Did we personalize? Assessing personalization by an online reinforcement
learning algorithm using resampling
- arxiv url: http://arxiv.org/abs/2304.05365v3
- Date: Mon, 24 Apr 2023 08:39:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 20:23:27.126041
- Title: Did we personalize? Assessing personalization by an online reinforcement
learning algorithm using resampling
- Title(参考訳): パーソナライズしたの?
リサンプリングを用いたオンライン強化学習アルゴリズムによるパーソナライズ評価
- Authors: Susobhan Ghosh, Raphael Kim, Prasidh Chhabria, Raaz Dwivedi, Predrag
Klasnja, Peng Liao, Kelly Zhang, Susan Murphy
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、デジタルヘルスにおける治療のシーケンスをパーソナライズし、ユーザーがより健康的な行動を採用するのを支援するために用いられる。
オンラインRLは、各ユーザの履歴応答に基づいて学習するので、この問題に対して有望なデータ駆動型アプローチである。
我々は,RLアルゴリズムが実世界の展開に最適化された介入に含まれるべきかどうかを評価する。
- 参考スコア(独自算出の注目度): 9.745543921550748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is a growing interest in using reinforcement learning (RL) to
personalize sequences of treatments in digital health to support users in
adopting healthier behaviors. Such sequential decision-making problems involve
decisions about when to treat and how to treat based on the user's context
(e.g., prior activity level, location, etc.). Online RL is a promising
data-driven approach for this problem as it learns based on each user's
historical responses and uses that knowledge to personalize these decisions.
However, to decide whether the RL algorithm should be included in an
``optimized'' intervention for real-world deployment, we must assess the data
evidence indicating that the RL algorithm is actually personalizing the
treatments to its users. Due to the stochasticity in the RL algorithm, one may
get a false impression that it is learning in certain states and using this
learning to provide specific treatments. We use a working definition of
personalization and introduce a resampling-based methodology for investigating
whether the personalization exhibited by the RL algorithm is an artifact of the
RL algorithm stochasticity. We illustrate our methodology with a case study by
analyzing the data from a physical activity clinical trial called HeartSteps,
which included the use of an online RL algorithm. We demonstrate how our
approach enhances data-driven truth-in-advertising of algorithm personalization
both across all users as well as within specific users in the study.
- Abstract(参考訳): デジタルヘルスにおける治療の順序をパーソナライズするために強化学習(RL)を使うことへの関心が高まっている。
このようなシーケンシャルな意思決定の問題は、ユーザのコンテキスト(例えば、以前のアクティビティレベル、位置など)に基づいて、いつ扱うか、どのように扱うかという決定を含む。
オンラインRLは、ユーザの過去の反応に基づいて学習し、その知識を使って意思決定をパーソナライズする、この問題に対する有望なデータ駆動アプローチである。
しかし,RLアルゴリズムが実際の展開のために ‘optimized' の介入に含めるべきかどうかを判断するためには,RLアルゴリズムが実際にユーザに対して治療をパーソナライズしていることを示すデータエビデンスを評価する必要がある。
RLアルゴリズムの確率性のため、特定の状態で学習し、この学習を用いて特定の治療を行っているという誤った印象を受けることがある。
パーソナライゼーションの動作定義を用いて、RLアルゴリズムが示すパーソナライゼーションがRLアルゴリズムの確率性の人工物であるかどうかを調べるリサンプリングベースの方法論を導入する。
本研究は,オンラインrlアルゴリズムを応用したheartstepsと呼ばれる身体活動臨床試験のデータを解析し,本手法をケーススタディで示す。
我々は,このアプローチがアルゴリズムのパーソナライズを,全ユーザと特定のユーザの両方に対して,データ駆動型真理広告の効果を高めることを実証する。
関連論文リスト
- Monitoring Fidelity of Online Reinforcement Learning Algorithms in Clinical Trials [20.944037982124037]
本稿では,オンラインRLアルゴリズムを臨床試験に導入するための重要な要件として,アルゴリズムの忠実性を提案する。
我々は,アルゴリズム開発者や臨床研究者がアルゴリズムの忠実性を確保するのに役立つ,事前デプロイ計画とリアルタイムモニタリングのためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-26T20:19:14Z) - Recommending the optimal policy by learning to act from temporal data [2.554326189662943]
本稿では,Reinforcement (RL) を用いて学習するAIベースのアプローチを提案する。
このアプローチは、実データと合成データセットに基づいて検証され、非政治的なDeep RLアプローチと比較される。
我々のアプローチがDeep RLアプローチと比較し、しばしば克服する能力は、時間的実行データしか利用できないシナリオにおいて、ホワイトボックスのRLテクニックの活用に寄与する。
論文 参考訳(メタデータ) (2023-03-16T10:30:36Z) - Human-Centric Multimodal Machine Learning: Recent Advances and Testbed
on AI-based Recruitment [66.91538273487379]
人間中心のアプローチでAIアプリケーションを開発する必要性には、ある程度のコンセンサスがある。
i)ユーティリティと社会的善、(ii)プライバシとデータ所有、(iii)透明性と説明責任、(iv)AIによる意思決定プロセスの公正性。
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
論文 参考訳(メタデータ) (2023-02-13T16:44:44Z) - Bridging the Gap Between Offline and Online Reinforcement Learning
Evaluation Methodologies [6.303272140868826]
強化学習(Reinforcement Learning, RL)は、大規模な状態と行動空間を持つ環境で学習するアルゴリズムに対して、非常に有望であることを示す。
現在の深層RLアルゴリズムは、学習に膨大な量の環境相互作用を必要とする。
オフラインのRLアルゴリズムは、既存のログデータから学習プロセスをブートストラップすることでこの問題に対処しようとする。
論文 参考訳(メタデータ) (2022-12-15T20:36:10Z) - Contrastive Learning as Goal-Conditioned Reinforcement Learning [147.28638631734486]
強化学習(RL)では,優れた表現が与えられると,課題の解決が容易になる。
ディープRLはこのような優れた表現を自動的に取得する必要があるが、事前の作業では、エンドツーエンドの方法での学習表現が不安定であることが多い。
比較的)表現学習法は,RLアルゴリズムとして自己にキャスト可能であることを示す。
論文 参考訳(メタデータ) (2022-06-15T14:34:15Z) - Federated Offline Reinforcement Learning [55.326673977320574]
マルチサイトマルコフ決定プロセスモデルを提案する。
我々は,オフラインRLを対象とした最初のフェデレーション最適化アルゴリズムを設計する。
提案アルゴリズムでは,学習ポリシーの準最適性は,データが分散していないような速度に匹敵する,理論的保証を与える。
論文 参考訳(メタデータ) (2022-06-11T18:03:26Z) - Designing Reinforcement Learning Algorithms for Digital Interventions:
Pre-implementation Guidelines [24.283342018185028]
オンライン強化学習アルゴリズムは、モバイル健康とオンライン教育の分野におけるデジタル介入のパーソナライズにますます利用されている。
これらの設定でRLアルゴリズムを設計およびテストする際の一般的な課題は、RLアルゴリズムがリアルタイム制約下で安定して学習および実行できることである。
私たちは、機械学習のベストプラクティスと教師あり学習の統計を取り入れたデータサイエンスフレームワークであるPCS(Predictability, Computability, Stability)フレームワークを拡張します。
論文 参考訳(メタデータ) (2022-06-08T15:05:28Z) - When Should We Prefer Offline Reinforcement Learning Over Behavioral
Cloning? [86.43517734716606]
オフライン強化学習(RL)アルゴリズムは、オンラインインタラクションなしで、以前に収集した経験を生かして効果的なポリシーを得ることができる。
行動クローニング(BC)アルゴリズムは、教師付き学習を通じてデータセットのサブセットを模倣する。
十分にノイズの多い準最適データに基づいて訓練されたポリシーは、専門家データを持つBCアルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2022-04-12T08:25:34Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Sample-Efficient Reinforcement Learning via Counterfactual-Based Data
Augmentation [15.451690870640295]
医療などのいくつかのシナリオでは、通常、各患者に利用可能なレコードはごくわずかであり、現在の強化学習アルゴリズムの適用を妨げる。
構造因果モデル(SCM)を利用して状態ダイナミクスをモデル化する,データ効率の高いRLアルゴリズムを提案する。
本研究は, 軽度条件下では反実結果が識別可能であり, 反実に基づく拡張データセット上のq学習が最適値関数に収束することを示す。
論文 参考訳(メタデータ) (2020-12-16T17:21:13Z) - Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。
本稿では,更新ルール全体を検出するメタラーニング手法を提案する。
これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文 参考訳(メタデータ) (2020-07-17T07:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。