論文の概要: Assessing the Impact of Context Inference Error and Partial
Observability on RL Methods for Just-In-Time Adaptive Interventions
- arxiv url: http://arxiv.org/abs/2305.09913v1
- Date: Wed, 17 May 2023 02:46:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 17:43:34.644881
- Title: Assessing the Impact of Context Inference Error and Partial
Observability on RL Methods for Just-In-Time Adaptive Interventions
- Title(参考訳): just-in-time adaptive interventionsにおけるrl法におけるコンテキスト推論誤差と部分可観測性の影響評価
- Authors: Karine Karine, Predrag Klasnja, Susan A. Murphy, Benjamin M. Marlin
- Abstract要約: ジャスト・イン・タイム・アダプティブ・インターベンション(Just-in-Time Adaptive Interventions, JITAI)は、行動科学コミュニティ内で開発されたパーソナライズされた健康介入のクラスである。
JITAIは、事前定義されたコンポーネントセットから介入オプションのシーケンスを反復的に選択することで、適切なタイプとサポート量を提供することを目指している。
本研究では,文脈推定誤差と部分観測可能性が効果的な政策学習能力に与える影響について検討する。
- 参考スコア(独自算出の注目度): 12.762365585427377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Just-in-Time Adaptive Interventions (JITAIs) are a class of personalized
health interventions developed within the behavioral science community. JITAIs
aim to provide the right type and amount of support by iteratively selecting a
sequence of intervention options from a pre-defined set of components in
response to each individual's time varying state. In this work, we explore the
application of reinforcement learning methods to the problem of learning
intervention option selection policies. We study the effect of context
inference error and partial observability on the ability to learn effective
policies. Our results show that the propagation of uncertainty from context
inferences is critical to improving intervention efficacy as context
uncertainty increases, while policy gradient algorithms can provide remarkable
robustness to partially observed behavioral state information.
- Abstract(参考訳): ジャスト・イン・タイム・アダプティブ・インターベンション(Just-in-Time Adaptive Interventions, JITAI)は、行動科学コミュニティ内で開発されたパーソナライズされた健康介入のクラスである。
JITAIは、各個人の時間変化状況に応じて、事前に定義されたコンポーネントセットから介入オプションのシーケンスを反復的に選択することで、適切なタイプとサポート量を提供することを目指している。
本研究では,強化学習手法の学習介入オプション選択ポリシー問題への適用について検討する。
コンテキスト推論の誤りと部分的可観測性が効果的なポリシーを学習する能力に与える影響について検討する。
この結果から,文脈不確かさが増大するにつれて介入効果を向上させるためには,文脈推論からの不確かさの伝播が重要であり,一方,政策勾配アルゴリズムは部分的に観察された行動状態情報に対して顕著な堅牢性をもたらすことが示唆された。
関連論文リスト
- Reconciling Heterogeneous Effects in Causal Inference [44.99833362998488]
本稿では、機械学習におけるモデル乗法にReconcileアルゴリズムを適用し、因果推論における異種効果を再現する。
本研究の結果は,医療,保険,住宅などの高額な事業において,公正な成果の確保に有意な意味を持っている。
論文 参考訳(メタデータ) (2024-06-05T18:43:46Z) - Reduced-Rank Multi-objective Policy Learning and Optimization [57.978477569678844]
実際には、因果研究者は先験を念頭において1つの結果を持っていない。
政府支援の社会福祉プログラムでは、政策立案者は貧困の多次元的性質を理解するために多くの成果を集めている。
本稿では、最適政策学習の文脈において、複数の結果に対するデータ駆動型次元性推論手法を提案する。
論文 参考訳(メタデータ) (2024-04-29T08:16:30Z) - Prescriptive Process Monitoring Under Resource Constraints: A
Reinforcement Learning Approach [0.3807314298073301]
強化学習は、試行錯誤を通じて介入政策を学ぶためのアプローチとして提案されている。
この領域における既存のアプローチは、プロセスの介入を行うのに利用可能なリソースの数が無制限であると仮定する。
本稿では、資源制約の存在下では、規範的プロセス監視の分野における重要なジレンマは、その必要性、スケジュール、効果の予測だけでなく、これらの予測の不確実性や資源利用のレベルにも基づく介入をトリガーすることである、と論じる。
論文 参考訳(メタデータ) (2023-07-13T05:31:40Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - SurvITE: Learning Heterogeneous Treatment Effects from Time-to-Event
Data [83.50281440043241]
時系列データから不均一な処理効果を推定する問題について検討する。
本稿では,バランス表現に基づく治療特異的ハザード推定のための新しいディープラーニング手法を提案する。
論文 参考訳(メタデータ) (2021-10-26T20:13:17Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Stochastic Intervention for Causal Inference via Reinforcement Learning [7.015556609676951]
因果推論の中心は介入戦略の処理効果推定である。
既存の方法はほとんどが決定論的治療に限られており、異なる治療下での結果を比較する。
介入に対する治療効果を推定するための新しい効果的な枠組みを提案する。
論文 参考訳(メタデータ) (2021-05-28T00:11:22Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z) - Learning "What-if" Explanations for Sequential Decision-Making [92.8311073739295]
実世界の意思決定の解釈可能なパラメータ化を実証行動に基づいて構築することが不可欠である。
そこで我々は,「何」の結果に対する嗜好の観点から,報酬関数をモデル化し,専門家による意思決定の学習的説明を提案する。
本研究は,行動の正確かつ解釈可能な記述を回復する上で,実効的逆強化学習手法であるバッチの有効性を強調した。
論文 参考訳(メタデータ) (2020-07-02T14:24:17Z) - Control Frequency Adaptation via Action Persistence in Batch
Reinforcement Learning [40.94323379769606]
本稿では,一定回数の決定ステップに対するアクションの繰り返しを構成する動作持続性の概念を紹介する。
本稿では,FQIを拡張する新しいアルゴリズムであるPersistent Fitted Q-Iteration(PFQI)を提案する。
論文 参考訳(メタデータ) (2020-02-17T08:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。