論文の概要: DTR Bandit: Learning to Make Response-Adaptive Decisions With Low Regret
- arxiv url: http://arxiv.org/abs/2005.02791v3
- Date: Tue, 20 Sep 2022 20:59:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 05:14:24.344299
- Title: DTR Bandit: Learning to Make Response-Adaptive Decisions With Low Regret
- Title(参考訳): DTR Bandit: 低レグレットで応答適応型決定を学習する
- Authors: Yichun Hu and Nathan Kallus
- Abstract要約: 動的治療体制 (DTR) はパーソナライズされ適応された多段階の治療計画であり、治療決定を個人の初期特徴に適応させ、その後の各段階における中間結果と特徴に適応させる。
本稿では,探索と搾取を慎重にバランスさせることで,遷移モデルと報酬モデルが線形である場合に,速度-最適後悔を実現する新しいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 59.81290762273153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dynamic treatment regimes (DTRs) are personalized, adaptive, multi-stage
treatment plans that adapt treatment decisions both to an individual's initial
features and to intermediate outcomes and features at each subsequent stage,
which are affected by decisions in prior stages. Examples include personalized
first- and second-line treatments of chronic conditions like diabetes, cancer,
and depression, which adapt to patient response to first-line treatment,
disease progression, and individual characteristics. While existing literature
mostly focuses on estimating the optimal DTR from offline data such as from
sequentially randomized trials, we study the problem of developing the optimal
DTR in an online manner, where the interaction with each individual affect both
our cumulative reward and our data collection for future learning. We term this
the DTR bandit problem. We propose a novel algorithm that, by carefully
balancing exploration and exploitation, is guaranteed to achieve rate-optimal
regret when the transition and reward models are linear. We demonstrate our
algorithm and its benefits both in synthetic experiments and in a case study of
adaptive treatment of major depressive disorder using real-world data.
- Abstract(参考訳): 動的治療体制(DTR)はパーソナライズされ適応された多段階の治療計画であり、個々の初期特徴とその後の段階における中間結果と特徴の両方に適応し、前段階の意思決定に影響される。
例えば、糖尿病、がん、うつ病などの慢性疾患のパーソナライズされた第一線および第二線治療は、第一線治療に対する患者の反応、疾患の進行、個人の特性に適応する。
既存の文献では, 逐次ランダム化試験などのオフラインデータから最適dtrを推定することが主眼であるが, 個人間の相互作用が蓄積報酬と今後の学習のためのデータ収集の両方に影響を及ぼすオンライン手法による最適dtrの開発の問題について検討する。
これをDTRバンドイット問題と呼ぶ。
本研究では,探索と搾取を慎重にバランスさせることで,トランジッションモデルと報酬モデルが線形な場合のレート最適後悔を実現する新しいアルゴリズムを提案する。
我々は,本アルゴリズムとその利点を,実世界のデータを用いた大うつ病の適応治療のケーススタディと合成実験で実証した。
関連論文リスト
- Robust Learning for Optimal Dynamic Treatment Regimes with Observational Data [0.0]
本研究では,各段階の個人に対する最適な治療課題を個人の歴史に基づいて導く,最適な動的治療体制(DTR)の統計的学習について検討する。
逐次的無知を前提とした観測データを用いて最適なDTRを学習するためのステップワイド・ダブル・ロバスト手法を提案する。
論文 参考訳(メタデータ) (2024-03-30T02:33:39Z) - TCFimt: Temporal Counterfactual Forecasting from Individual Multiple
Treatment Perspective [50.675845725806724]
個別多面的治療の観点からの時間的対実予測の包括的枠組み(TCFimt)を提案する。
TCFimtは、選択と時間変化バイアスを軽減するためにSeq2seqフレームワークの逆タスクを構築し、比較学習ベースのブロックを設計し、混合処理効果を分離した主治療効果と因果相互作用に分解する。
提案手法は, 特定の治療法による今後の結果予測と, 最先端手法よりも最適な治療タイプとタイミングを選択する上で, 良好な性能を示す。
論文 参考訳(メタデータ) (2022-12-17T15:01:05Z) - Federated Offline Reinforcement Learning [55.326673977320574]
マルチサイトマルコフ決定プロセスモデルを提案する。
我々は,オフラインRLを対象とした最初のフェデレーション最適化アルゴリズムを設計する。
提案アルゴリズムでは,学習ポリシーの準最適性は,データが分散していないような速度に匹敵する,理論的保証を与える。
論文 参考訳(メタデータ) (2022-06-11T18:03:26Z) - Learning Optimal Dynamic Treatment Regimes Using Causal Tree Methods in
Medicine [20.401805132360654]
最適動的治療体制(DTR)を学習するための2つの新しい方法を開発した。
本手法は,原因木法を用いて不均一な処理効果をデータ駆動で推定する手法である。
提案手法を合成データを用いて評価し,それらを集中治療室からの実世界データに適用する。
論文 参考訳(メタデータ) (2022-04-14T17:27:08Z) - Ambiguous Dynamic Treatment Regimes: A Reinforcement Learning Approach [0.0]
動的処理レジーム(DTR)は、このプロセスの形式化のために広く研究されている。
最適な治療体制を効率的に学習するための強化学習法を開発した。
論文 参考訳(メタデータ) (2021-12-08T20:22:04Z) - Disentangled Counterfactual Recurrent Networks for Treatment Effect
Inference over Time [71.30985926640659]
本稿では,DCRN(Disentangled Counterfactual Recurrent Network)を提案する。
時間とともに治療効果の因果構造に完全にインスパイアされたアーキテクチャでは、予測精度と疾患理解が向上する。
実データとシミュレーションデータの両方において,DCRNが処理応答予測の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-12-07T16:40:28Z) - Continuous Treatment Recommendation with Deep Survival Dose Response
Function [3.705291460388999]
臨床生存データを用いた環境下での継続的治療推奨問題に対する一般的な定式化を提案する。
DeepSDRFによる処理効果の推定により,選択バイアスを補正したレコメンデータアルゴリズムの開発が可能となる。
医学的文脈における観察データによる継続的な治療効果に因果モデルが使用されるのは、これが初めてである。
論文 参考訳(メタデータ) (2021-08-24T00:19:04Z) - DeepRite: Deep Recurrent Inverse TreatmEnt Weighting for Adjusting
Time-varying Confounding in Modern Longitudinal Observational Data [68.29870617697532]
時系列データにおける時間変化の相違に対するDeep Recurrent Inverse TreatmEnt重み付け(DeepRite)を提案する。
DeepRiteは、合成データから基底的真理を復元し、実際のデータから偏りのない処理効果を推定する。
論文 参考訳(メタデータ) (2020-10-28T15:05:08Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - Multicategory Angle-based Learning for Estimating Optimal Dynamic
Treatment Regimes with Censored Data [12.499787110182632]
最適な治療体制(DTR)は、長期的な利益を最大化するための一連の決定規則から構成される。
本稿では,マルチカテゴリ処理フレームワークを用いて,最適DTRをターゲットとした新しい角度ベースアプローチを提案する。
本稿では,条件付き生存関数の最大化の観点から,提案手法が競合手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-01-14T05:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。