論文の概要: Reinforcement Learning in Dynamic Treatment Regimes Needs Critical Reexamination
- arxiv url: http://arxiv.org/abs/2405.18556v1
- Date: Tue, 28 May 2024 20:03:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 21:53:22.893178
- Title: Reinforcement Learning in Dynamic Treatment Regimes Needs Critical Reexamination
- Title(参考訳): 動的治療レジームにおける強化学習 : 批判的再検討の必要性
- Authors: Zhiyao Luo, Yangchen Pan, Peter Watkinson, Tingting Zhu,
- Abstract要約: 動的治療体制におけるオフライン強化学習は 前例のない機会と課題が混在している。
不整合性や潜在的に決定的でない評価指標などの懸念を引用して、動的治療体制におけるRLの適用の再評価を論じる。
評価指標の変化やマルコフ決定過程(MDP)の定式化によって,RLアルゴリズムの性能が著しく変化することを示した。
- 参考スコア(独自算出の注目度): 7.162274565861427
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In the rapidly changing healthcare landscape, the implementation of offline reinforcement learning (RL) in dynamic treatment regimes (DTRs) presents a mix of unprecedented opportunities and challenges. This position paper offers a critical examination of the current status of offline RL in the context of DTRs. We argue for a reassessment of applying RL in DTRs, citing concerns such as inconsistent and potentially inconclusive evaluation metrics, the absence of naive and supervised learning baselines, and the diverse choice of RL formulation in existing research. Through a case study with more than 17,000 evaluation experiments using a publicly available Sepsis dataset, we demonstrate that the performance of RL algorithms can significantly vary with changes in evaluation metrics and Markov Decision Process (MDP) formulations. Surprisingly, it is observed that in some instances, RL algorithms can be surpassed by random baselines subjected to policy evaluation methods and reward design. This calls for more careful policy evaluation and algorithm development in future DTR works. Additionally, we discussed potential enhancements toward more reliable development of RL-based dynamic treatment regimes and invited further discussion within the community. Code is available at https://github.com/GilesLuo/ReassessDTR.
- Abstract(参考訳): 急速に変化する医療分野では、動的治療体制(DTR)におけるオフライン強化学習(RL)の実装は、前例のない機会と課題の混在を示している。
本稿では、DTRの文脈におけるオフラインRLの現状を批判的に検証する。
本稿では,DTRにRLを適用することの再評価について論じる。不整合性,潜在的に不整合性評価指標,ナイーブおよび教師あり学習ベースラインの欠如,既存研究におけるRL定式化の選択の多様さなどの懸念を引用する。
公開されているSepsisデータセットを用いて17,000以上の評価実験を行ったケーススタディにより、RLアルゴリズムの性能は評価指標の変化やマルコフ決定プロセス(MDP)の定式化と大きく異なることを示した。
驚いたことに、いくつかのケースでは、RLアルゴリズムはポリシー評価手法や報酬設計に従属するランダムなベースラインによって超えることができる。
これにより、将来のDTRにおけるより慎重な政策評価とアルゴリズム開発が求められている。
さらに,RLに基づく動的治療体制の信頼性向上に向けた可能性についても検討し,コミュニティ内でさらなる議論を招いた。
コードはhttps://github.com/GilesLuo/ReassessDTRで入手できる。
関連論文リスト
- DTR-Bench: An in silico Environment and Benchmark Platform for Reinforcement Learning Based Dynamic Treatment Regime [18.443316087890324]
強化学習(Reinforcement Learning, RL)は、個人化医療における動的治療体制(DTR)を最適化する可能性の認知度を高めている。
多様な医療シナリオをシミュレートするベンチマークプラットフォームであるtextitDTR-Benchを紹介した。
我々はこれらの設定の様々な最先端のRLアルゴリズムを評価し、特に実世界の課題の中でその性能を強調した。
論文 参考訳(メタデータ) (2024-05-28T21:40:00Z) - Timing Process Interventions with Causal Inference and Reinforcement
Learning [2.919859121836811]
本稿では,オンラインRLを生かした合成データを用いた時間プロセス介入実験とCIとの比較について述べる。
我々の実験によると、RLのポリシーはCIのポリシーよりも優れており、同時に堅牢である。
CIとは異なり、修正されていないオンラインRLアプローチは、次のベストアクティビティレコメンデーションなど、より一般的なPresPM問題にも適用することができる。
論文 参考訳(メタデータ) (2023-06-07T10:02:16Z) - A Survey on Causal Reinforcement Learning [41.645270300009436]
本稿では、CRL(Causal Reinforcement Learning)の作業のレビュー、CRL手法のレビュー、RLへの因果性から潜在的な機能について検討する。
特に,既存のCRLアプローチを,因果関係に基づく情報が事前に与えられるか否かに応じて2つのカテゴリに分けた。
我々は、マルコフ決定プロセス(MDP)、部分観測マルコフ決定プロセス(POMDP)、マルチアーム帯域(MAB)、動的治療レジーム(DTR)など、様々なモデルの形式化の観点から、各カテゴリを解析する。
論文 参考訳(メタデータ) (2023-02-10T12:25:08Z) - When does return-conditioned supervised learning work for offline
reinforcement learning? [51.899892382786526]
本研究では,リターン条件付き教師あり学習の能力と限界について検討する。
RCSLは、より伝統的な動的プログラミングベースのアルゴリズムに必要なものよりも強い仮定のセットで最適なポリシーを返す。
論文 参考訳(メタデータ) (2022-06-02T15:05:42Z) - Testing Stationarity and Change Point Detection in Reinforcement
Learning [10.343546104340962]
予め収集した履歴データに基づいて最適なQ-関数の非定常性をテストする一貫した手順を開発する。
さらに、非定常環境における政策最適化のための既存の最先端RL手法と自然に結合可能な逐次変化点検出法を開発した。
論文 参考訳(メタデータ) (2022-03-03T13:30:28Z) - Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。
主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。
理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文 参考訳(メタデータ) (2021-11-29T06:29:49Z) - On the Robustness of Controlled Deep Reinforcement Learning for Slice
Placement [0.8459686722437155]
我々は、純粋なDRLベースアルゴリズムとハイブリッドDRLヒューリスティックアルゴリズムである2つのDeep Reinforcement Learningアルゴリズムを比較した。
評価結果から,提案手法は純粋なDRLよりも予測不可能なネットワーク負荷変化の場合に,より堅牢で信頼性が高いことが示唆された。
論文 参考訳(メタデータ) (2021-08-05T10:24:33Z) - Causal Inference Q-Network: Toward Resilient Reinforcement Learning [57.96312207429202]
観測干渉を有する弾力性のあるDRLフレームワークを検討する。
本稿では、因果推論Q-network (CIQ) と呼ばれる因果推論に基づくDRLアルゴリズムを提案する。
実験の結果,提案手法は観測干渉に対して高い性能と高反発性を実現することができた。
論文 参考訳(メタデータ) (2021-02-18T23:50:20Z) - Towards Continual Reinforcement Learning: A Review and Perspectives [69.48324517535549]
我々は,連続的強化学習(RL)に対する異なる定式化とアプローチの文献レビューの提供を目的とする。
まだ初期段階だが、継続的なrlの研究は、よりインクリメンタルな強化学習者を開発することを約束している。
これには、医療、教育、物流、ロボット工学などの分野の応用が含まれる。
論文 参考訳(メタデータ) (2020-12-25T02:35:27Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。