Fugu-MT 論文翻訳(概要): Robust Learning for Optimal Dynamic Treatment Regimes with Observational Data

論文の概要: Robust Learning for Optimal Dynamic Treatment Regimes with Observational Data

arxiv url: http://arxiv.org/abs/2404.00221v1
Date: Sat, 30 Mar 2024 02:33:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 06:46:13.621556
Title: Robust Learning for Optimal Dynamic Treatment Regimes with Observational Data
Title（参考訳）: 観測データを用いた最適動的処理規則のロバスト学習
Authors: Shosei Sakaguchi,
Abstract要約: 本研究では,各段階の個人に対する最適な治療課題を個人の歴史に基づいて導く,最適な動的治療体制(DTR)の統計的学習について検討する。逐次的無知を前提とした観測データを用いて最適なDTRを学習するためのステップワイド・ダブル・ロバスト手法を提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Many public policies and medical interventions involve dynamics in their treatment assignments, where treatments are sequentially assigned to the same individuals across multiple stages, and the effect of treatment at each stage is usually heterogeneous with respect to the history of prior treatments and associated characteristics. We study statistical learning of optimal dynamic treatment regimes (DTRs) that guide the optimal treatment assignment for each individual at each stage based on the individual's history. We propose a step-wise doubly-robust approach to learn the optimal DTR using observational data under the assumption of sequential ignorability. The approach solves the sequential treatment assignment problem through backward induction, where, at each step, we combine estimators of propensity scores and action-value functions (Q-functions) to construct augmented inverse probability weighting estimators of values of policies for each stage. The approach consistently estimates the optimal DTR if either a propensity score or Q-function for each stage is consistently estimated. Furthermore, the resulting DTR can achieve the optimal convergence rate $n^{-1/2}$ of regret under mild conditions on the convergence rate for estimators of the nuisance parameters.
Abstract（参考訳）: 多くの公的政策や医療介入は、治療の割り当てにおけるダイナミクスに関係しており、治療は複数の段階にわたって同一個人に順次割り当てられ、各段階における治療の効果は通常、前処理の歴史と関連する特徴に関して異質である。本研究では,各段階の個人に対する最適な治療課題を個人の歴史に基づいて導く,最適な動的治療体制(DTR)の統計的学習について検討する。逐次的無知を前提とした観測データを用いて最適なDTRを学習するためのステップワイド・ダブル・ロバスト手法を提案する。提案手法は,各段階のポリシーの値の逆確率重み付け推定器を構築するために,各段階の確率スコアと行動値関数(Q関数)の推定器を組み合わせることによって,逐次的処理代入問題を解決する。このアプローチは、各ステージの確率スコアまたはQ関数が一貫して推定される場合、常に最適DTRを推定する。さらに、結果のDTRは、ニュアンスパラメータの推定器の収束率に関する穏やかな条件下で、最適収束率$n^{-1/2}$の後悔を達成できる。

関連論文リスト

Parameterized Diffusion Optimization enabled Autoregressive Ordinal Regression for Diabetic Retinopathy Grading [53.11883409422728]
本研究は, AOR-DRと呼ばれる新しい自己回帰的順序回帰法を提案する。我々は,糖尿病網膜症分類タスクを,前ステップの予測と抽出画像の特徴を融合させることにより,一連の順序段階に分解する。拡散過程を利用して条件付き確率モデリングを行い、連続的グローバルな画像特徴を自己回帰に利用できるようにする。
論文参考訳（メタデータ） (2025-07-07T13:22:35Z)
Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。この障壁を克服する斬新でシンプルな推定器を提示する。
論文参考訳（メタデータ） (2025-01-30T22:29:41Z)
Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-17T11:47:56Z)
Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文参考訳（メタデータ） (2024-08-21T06:48:38Z)
Stage-Aware Learning for Dynamic Treatments [3.6923632650826486]
動的治療体制のための新しい個別化学習法を提案する。観測軌道が最適処理と完全に一致しなければならないという制約を緩和することにより,本手法はIPWE法における試料効率と安定性を大幅に改善する。
論文参考訳（メタデータ） (2023-10-30T06:35:31Z)
Statistically Efficient Variance Reduction with Double Policy Estimation for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。 D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文参考訳（メタデータ） (2023-08-28T20:46:07Z)
Efficient and robust transfer learning of optimal individualized treatment regimes with right-censored survival data [7.308241944759317]
個別治療体制(英: individualized treatment regime、ITR)は、患者の特徴に基づいて治療を割り当てる決定規則である。本稿では、値関数の2倍頑健な推定器を提案し、その最適ITRは、予め指定されたIRRのクラス内の値関数を最大化することにより学習する。重篤なメタボリックアシダ血症に対するバイカーボネートナトリウム療法のシミュレーションおよび実データによる評価を行った。
論文参考訳（メタデータ） (2023-01-13T11:47:10Z)
When AUC meets DRO: Optimizing Partial AUC for Deep Learning with Non-Convex Convergence Guarantee [51.527543027813344]
単方向および二方向部分AUC(pAUC)の系統的および効率的な勾配法を提案する。一方通行と一方通行の pAUC に対して,2つのアルゴリズムを提案し,それぞれ2つの定式化を最適化するための収束性を証明した。
論文参考訳（メタデータ） (2022-03-01T01:59:53Z)
Policy Learning for Optimal Individualized Dose Intervals [3.9801611649762263]
このような政策を推定する新しい手法を提案する。推定された政策は一貫しており、そのリスクはルートnレートで最良クラスの政策に収束する。
論文参考訳（メタデータ） (2022-02-24T17:59:20Z)
Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文参考訳（メタデータ） (2021-06-22T17:58:46Z)
Estimation of Optimal Dynamic Treatment Assignment Rules under Policy Constraints [0.0]
本研究は,各段階の個人に対して,その履歴に基づいて最適な治療課題を導出する最適動的治療体制の推定について検討する。提案手法は, 下位帰納的帰納的帰納的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属的帰属
論文参考訳（メタデータ） (2021-06-09T12:42:53Z)
Stochastic Optimization of Areas Under Precision-Recall Curves with Provable Convergence [66.83161885378192]
ROC(AUROC)と精度リコール曲線(AUPRC)の下の領域は、不均衡問題に対する分類性能を評価するための一般的な指標である。本稿では,深層学習のためのAUPRCの最適化手法を提案する。
論文参考訳（メタデータ） (2021-04-18T06:22:21Z)
Learning Individualized Treatment Rules with Estimated Translated Inverse Propensity Score [29.606141542532356]
本稿では、個別化された治療規則(ITR)を学習して治療方針を導出することに焦点を当てる。本フレームワークでは,ITRの学習を文脈的盗聴問題とみなし,治療方針の予測リスクを最小限に抑える。長期的目標として、当社の方針は、最終的にはIVおよびVPの治験ガイドラインの改善につながる可能性がある。
論文参考訳（メタデータ） (2020-07-02T13:13:56Z)
DTR Bandit: Learning to Make Response-Adaptive Decisions With Low Regret [59.81290762273153]
動的治療体制 (DTR) はパーソナライズされ適応された多段階の治療計画であり、治療決定を個人の初期特徴に適応させ、その後の各段階における中間結果と特徴に適応させる。本稿では,探索と搾取を慎重にバランスさせることで,遷移モデルと報酬モデルが線形である場合に,速度-最適後悔を実現する新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-05-06T13:03:42Z)
Comment: Entropy Learning for Dynamic Treatment Regimes [58.442274475425144]
JSLZのアプローチは、逆確率(IPW)に基づく与えられた決定規則の値の拒絶とサンプリングの見積もりと、その解釈を重み付けされた(またはコストに敏感な)分類として利用する。彼らのスムーズな分類サロゲートの使用は、分布の分析に慎重なアプローチを可能にする。 IPWの推定は、ほとんどのデータを捨てる重みにつながり、残余については非常に変動しているため、問題となる。
論文参考訳（メタデータ） (2020-04-06T16:11:05Z)
Multicategory Angle-based Learning for Estimating Optimal Dynamic Treatment Regimes with Censored Data [12.499787110182632]
最適な治療体制(DTR)は、長期的な利益を最大化するための一連の決定規則から構成される。本稿では,マルチカテゴリ処理フレームワークを用いて,最適DTRをターゲットとした新しい角度ベースアプローチを提案する。本稿では,条件付き生存関数の最大化の観点から,提案手法が競合手法より優れていることを示す。
論文参考訳（メタデータ） (2020-01-14T05:19:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。