Fugu-MT 論文翻訳(概要): Estimating Optimal Infinite Horizon Dynamic Treatment Regimes via pT-Learning

論文の概要: Estimating Optimal Infinite Horizon Dynamic Treatment Regimes via pT-Learning

arxiv url: http://arxiv.org/abs/2110.10719v1
Date: Wed, 20 Oct 2021 18:38:22 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-22 17:28:57.929437
Title: Estimating Optimal Infinite Horizon Dynamic Treatment Regimes via pT-Learning
Title（参考訳）: pT-Learningによる最適無限水平動的処理レジームの推定
Authors: Wenzhuo Zhou, Ruoqing Zhu and Annie Qu
Abstract要約: モバイルヘルス(mHealth)技術の最近の進歩は、個人の健康状態を監視し、ジャスト・イン・タイムのパーソナライズされた介入を提供する効果的な方法を提供する。 mHealthテクノロジーの実用化は、最適な動的治療体制を学習する上で、既存の方法論に固有の課題を提起する。本稿では,決定論的とスパース政策モデルの間で適応的に調整された最適条件を推定する近時学習フレームワークを提案する。
参考スコア（独自算出の注目度）: 2.0625936401496237
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in mobile health (mHealth) technology provide an effective way to monitor individuals' health statuses and deliver just-in-time personalized interventions. However, the practical use of mHealth technology raises unique challenges to existing methodologies on learning an optimal dynamic treatment regime. Many mHealth applications involve decision-making with large numbers of intervention options and under an infinite time horizon setting where the number of decision stages diverges to infinity. In addition, temporary medication shortages may cause optimal treatments to be unavailable, while it is unclear what alternatives can be used. To address these challenges, we propose a Proximal Temporal consistency Learning (pT-Learning) framework to estimate an optimal regime that is adaptively adjusted between deterministic and stochastic sparse policy models. The resulting minimax estimator avoids the double sampling issue in the existing algorithms. It can be further simplified and can easily incorporate off-policy data without mismatched distribution corrections. We study theoretical properties of the sparse policy and establish finite-sample bounds on the excess risk and performance error. The proposed method is implemented by our proximalDTR package and is evaluated through extensive simulation studies and the OhioT1DM mHealth dataset.
Abstract（参考訳）: モバイルヘルス(mHealth)技術の最近の進歩は、個人の健康状態を監視し、ジャストインタイムのパーソナライズされた介入を提供する効果的な方法を提供する。しかし、mHealth 技術の実用化は、最適な動的治療体制の学習において、既存の方法論に固有の課題をもたらす。多くのmHealthアプリケーションは、多数の介入オプションによる意思決定と、決定段階の数が無限に分散する無限時間水平線設定を含む。加えて、一時的な薬物不足は最適な治療が不可能になる可能性があるが、どのような代替手段が使えるかは定かではない。これらの課題に対処するために、決定論的および確率的スパースポリシーモデルの間で適応的に調整された最適体制を推定する、pT学習のための近時整合学習フレームワークを提案する。結果のminimax推定器は、既存のアルゴリズムの二重サンプリング問題を回避する。さらに単純化でき、不一致の分布補正なしに簡単にオフポリシーデータを組み込むことができる。スパース政策の理論的性質を考察し,過大なリスクと性能誤差に対する有限サンプル境界を確立する。提案手法は近位DTRパッケージにより実装され,広範囲なシミュレーション研究とOttoT1DM mHealthデータセットを用いて評価される。

関連論文リスト

POLAR: A Pessimistic Model-based Policy Learning Algorithm for Dynamic Treatment Regimes [15.681058679765277]
オフライン動的処理システム(DTR)のための悲観的モデルに基づくポリシー学習アルゴリズムであるPOLARを提案する。 POLARは、オフラインデータから遷移ダイナミクスを推定し、各ヒストリアクションペアに対する不確実性を定量化する。平均的なトレーニングパフォーマンスに重点を置く既存の多くの方法とは異なり、POLARは最終学習ポリシーの最適度を直接ターゲットとし、理論的な保証を提供する。合成データとMIMIC-IIIデータセットの両方の実験結果から、POLARは最先端の手法より優れており、ほぼ最適、歴史に配慮した治療戦略が得られている。
論文参考訳（メタデータ） (2025-06-25T13:22:57Z)
Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。この障壁を克服する斬新でシンプルな推定器を提示する。
論文参考訳（メタデータ） (2025-01-30T22:29:41Z)
Optimization-Driven Adaptive Experimentation [7.948144726705323]
実世界の実験には、バッチで遅延したフィードバック、非定常性、複数の目的と制約、そして(時には)パーソナライゼーションが含まれる。これらの課題にプロブレム単位で対処するための適応的手法の調整は不可能であり、静的設計はデファクトスタンダードのままである。本稿では,多種多様な目的,制約,統計的手順を柔軟に組み込む数学的プログラミングの定式化について述べる。
論文参考訳（メタデータ） (2024-08-08T16:29:09Z)
Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。 TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文参考訳（メタデータ） (2024-05-23T18:19:47Z)
Stage-Aware Learning for Dynamic Treatments [3.6923632650826486]
動的治療体制のための新しい個別化学習法を提案する。観測軌道が最適処理と完全に一致しなければならないという制約を緩和することにより,本手法はIPWE法における試料効率と安定性を大幅に改善する。
論文参考訳（メタデータ） (2023-10-30T06:35:31Z)
Provably Efficient UCB-type Algorithms For Learning Predictive State Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。 PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文参考訳（メタデータ） (2023-07-01T18:35:21Z)
Policy Optimization for Personalized Interventions in Behavioral Health [8.10897203067601]
デジタルプラットフォームを通じて提供される行動的健康介入は、健康結果を大幅に改善する可能性がある。患者に対するパーソナライズされた介入を最適化して長期的効果を最大化する問題について検討した。患者システムの状態空間を個別のレベルに分解するDecompPIをダブする新しい手法を提案する。
論文参考訳（メタデータ） (2023-03-21T21:42:03Z)
Quasi-optimal Reinforcement Learning with Continuous Actions [8.17049210746654]
そこで我々は,非政治環境において容易に最適化できる,新しいEmphquasi-Optimal Learningアルゴリズムを開発した。本アルゴリズムを網羅的なシミュレーション実験により評価し,オハイオ1型糖尿病データセットへの線量提案実例を適用した。
論文参考訳（メタデータ） (2023-01-21T11:30:13Z)
Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文参考訳（メタデータ） (2022-09-15T07:22:58Z)
Continuous-Time Modeling of Counterfactual Outcomes Using Neural Controlled Differential Equations [84.42837346400151]
反現実的な結果を予測することは、パーソナライズされたヘルスケアをアンロックする可能性がある。既存の因果推論アプローチでは、観察と治療決定の間の通常の離散時間間隔が考慮されている。そこで本研究では,腫瘍増殖モデルに基づく制御可能なシミュレーション環境を提案する。
論文参考訳（メタデータ） (2022-06-16T17:15:15Z)
Federated Offline Reinforcement Learning [55.326673977320574]
マルチサイトマルコフ決定プロセスモデルを提案する。我々は,オフラインRLを対象とした最初のフェデレーション最適化アルゴリズムを設計する。提案アルゴリズムでは,学習ポリシーの準最適性は,データが分散していないような速度に匹敵する,理論的保証を与える。
論文参考訳（メタデータ） (2022-06-11T18:03:26Z)
Combining Deep Learning and Optimization for Security-Constrained Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。 SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文参考訳（メタデータ） (2020-07-14T12:38:21Z)
Multicategory Angle-based Learning for Estimating Optimal Dynamic Treatment Regimes with Censored Data [12.499787110182632]
最適な治療体制(DTR)は、長期的な利益を最大化するための一連の決定規則から構成される。本稿では,マルチカテゴリ処理フレームワークを用いて,最適DTRをターゲットとした新しい角度ベースアプローチを提案する。本稿では,条件付き生存関数の最大化の観点から,提案手法が競合手法より優れていることを示す。
論文参考訳（メタデータ） (2020-01-14T05:19:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。