論文の概要: Assessing the Impact of Context Inference Error and Partial
Observability on RL Methods for Just-In-Time Adaptive Interventions
- arxiv url: http://arxiv.org/abs/2305.09913v1
- Date: Wed, 17 May 2023 02:46:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 17:43:34.644881
- Title: Assessing the Impact of Context Inference Error and Partial
Observability on RL Methods for Just-In-Time Adaptive Interventions
- Title(参考訳): just-in-time adaptive interventionsにおけるrl法におけるコンテキスト推論誤差と部分可観測性の影響評価
- Authors: Karine Karine, Predrag Klasnja, Susan A. Murphy, Benjamin M. Marlin
- Abstract要約: ジャスト・イン・タイム・アダプティブ・インターベンション(Just-in-Time Adaptive Interventions, JITAI)は、行動科学コミュニティ内で開発されたパーソナライズされた健康介入のクラスである。
JITAIは、事前定義されたコンポーネントセットから介入オプションのシーケンスを反復的に選択することで、適切なタイプとサポート量を提供することを目指している。
本研究では,文脈推定誤差と部分観測可能性が効果的な政策学習能力に与える影響について検討する。
- 参考スコア(独自算出の注目度): 12.762365585427377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Just-in-Time Adaptive Interventions (JITAIs) are a class of personalized
health interventions developed within the behavioral science community. JITAIs
aim to provide the right type and amount of support by iteratively selecting a
sequence of intervention options from a pre-defined set of components in
response to each individual's time varying state. In this work, we explore the
application of reinforcement learning methods to the problem of learning
intervention option selection policies. We study the effect of context
inference error and partial observability on the ability to learn effective
policies. Our results show that the propagation of uncertainty from context
inferences is critical to improving intervention efficacy as context
uncertainty increases, while policy gradient algorithms can provide remarkable
robustness to partially observed behavioral state information.
- Abstract(参考訳): ジャスト・イン・タイム・アダプティブ・インターベンション(Just-in-Time Adaptive Interventions, JITAI)は、行動科学コミュニティ内で開発されたパーソナライズされた健康介入のクラスである。
JITAIは、各個人の時間変化状況に応じて、事前に定義されたコンポーネントセットから介入オプションのシーケンスを反復的に選択することで、適切なタイプとサポート量を提供することを目指している。
本研究では,強化学習手法の学習介入オプション選択ポリシー問題への適用について検討する。
コンテキスト推論の誤りと部分的可観測性が効果的なポリシーを学習する能力に与える影響について検討する。
この結果から,文脈不確かさが増大するにつれて介入効果を向上させるためには,文脈推論からの不確かさの伝播が重要であり,一方,政策勾配アルゴリズムは部分的に観察された行動状態情報に対して顕著な堅牢性をもたらすことが示唆された。
関連論文リスト
- Hindsight-DICE: Stable Credit Assignment for Deep Reinforcement Learning [11.084321518414226]
我々は,既存の重要度・重要度比推定手法をオフ政治評価に適用し,いわゆる後見政策手法の安定性と効率を大幅に向上させる。
我々の後視分布補正は、信用代入がベースライン手法を悩ませている広範囲の環境において、安定的で効率的な学習を容易にする。
論文 参考訳(メタデータ) (2023-07-21T20:54:52Z) - Safe Reinforcement Learning as Wasserstein Variational Inference: Formal
Methods for Interpretability [3.360922672565235]
本稿では,これらの解釈可能性問題に対処するために,適応ワッサースタイン変分最適化(AWaVO)を提案する。
提案手法は,コンバージェンス保証の解釈可能性,透明性の訓練,本質的な決定解釈を実現するために形式的手法を用いる。
TRPO-IPO, PCPO, CRPOといった最先端ベンチマークと比較して, AWaVOがハイパフォーマンスと十分な解釈可能性の間に合理的なトレードオフをもたらすことを実証的に検証する。
論文 参考訳(メタデータ) (2023-07-13T22:52:22Z) - Prescriptive Process Monitoring Under Resource Constraints: A
Reinforcement Learning Approach [0.3807314298073301]
強化学習は、試行錯誤を通じて介入政策を学ぶためのアプローチとして提案されている。
この領域における既存のアプローチは、プロセスの介入を行うのに利用可能なリソースの数が無制限であると仮定する。
本稿では、資源制約の存在下では、規範的プロセス監視の分野における重要なジレンマは、その必要性、スケジュール、効果の予測だけでなく、これらの予測の不確実性や資源利用のレベルにも基づく介入をトリガーすることである、と論じる。
論文 参考訳(メタデータ) (2023-07-13T05:31:40Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - SurvITE: Learning Heterogeneous Treatment Effects from Time-to-Event
Data [83.50281440043241]
時系列データから不均一な処理効果を推定する問題について検討する。
本稿では,バランス表現に基づく治療特異的ハザード推定のための新しいディープラーニング手法を提案する。
論文 参考訳(メタデータ) (2021-10-26T20:13:17Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Stochastic Intervention for Causal Inference via Reinforcement Learning [7.015556609676951]
因果推論の中心は介入戦略の処理効果推定である。
既存の方法はほとんどが決定論的治療に限られており、異なる治療下での結果を比較する。
介入に対する治療効果を推定するための新しい効果的な枠組みを提案する。
論文 参考訳(メタデータ) (2021-05-28T00:11:22Z) - Learning "What-if" Explanations for Sequential Decision-Making [92.8311073739295]
実世界の意思決定の解釈可能なパラメータ化を実証行動に基づいて構築することが不可欠である。
そこで我々は,「何」の結果に対する嗜好の観点から,報酬関数をモデル化し,専門家による意思決定の学習的説明を提案する。
本研究は,行動の正確かつ解釈可能な記述を回復する上で,実効的逆強化学習手法であるバッチの有効性を強調した。
論文 参考訳(メタデータ) (2020-07-02T14:24:17Z) - Control Frequency Adaptation via Action Persistence in Batch
Reinforcement Learning [40.94323379769606]
本稿では,一定回数の決定ステップに対するアクションの繰り返しを構成する動作持続性の概念を紹介する。
本稿では,FQIを拡張する新しいアルゴリズムであるPersistent Fitted Q-Iteration(PFQI)を提案する。
論文 参考訳(メタデータ) (2020-02-17T08:38:51Z) - Interpretable Off-Policy Evaluation in Reinforcement Learning by
Highlighting Influential Transitions [48.91284724066349]
強化学習におけるオフ政治評価は、医療や教育などの領域における将来の成果を改善するために観察データを使用する機会を提供する。
信頼区間のような従来の尺度は、ノイズ、限られたデータ、不確実性のために不十分である可能性がある。
我々は,人間専門家が政策評価評価評価の妥当性を分析できるように,ハイブリッドAIシステムとして機能する手法を開発した。
論文 参考訳(メタデータ) (2020-02-10T00:26:43Z) - Generalization Bounds and Representation Learning for Estimation of
Potential Outcomes and Causal Effects [61.03579766573421]
代替薬に対する患者一人の反応など,個人レベルの因果効果の推定について検討した。
我々は,表現の誘導的処理群距離を正規化することにより,境界を最小化する表現学習アルゴリズムを考案した。
これらのアルゴリズムを拡張して、重み付き表現を同時に学習し、治療群距離をさらに削減する。
論文 参考訳(メタデータ) (2020-01-21T10:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。