論文の概要: Semi-Markov Offline Reinforcement Learning for Healthcare
- arxiv url: http://arxiv.org/abs/2203.09365v1
- Date: Thu, 17 Mar 2022 14:51:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-18 19:51:11.205712
- Title: Semi-Markov Offline Reinforcement Learning for Healthcare
- Title(参考訳): 医療のための半マルコフオフライン強化学習
- Authors: Mehdi Fatemi and Mary Wu and Jeremy Petch and Walter Nelson and Stuart
J. Connolly and Alexander Benz and Anthony Carnicelli and Marzyeh Ghassemi
- Abstract要約: 強化学習タスクは通常、決定が一定時間間隔で行われると仮定して、マルコフ決定プロセス(MDP)としてフレーム化される。
ほとんどの医療(と同じような)問題は、本質的にオフラインであり、レトロスペクティブ研究のみを可能にします。
本稿では,Semi-MDP (SMDP) の修正を任意の値ベースオフラインRL法に適用する公式な方法を提案する。
- 参考スコア(独自算出の注目度): 57.15307499843254
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) tasks are typically framed as Markov Decision
Processes (MDPs), assuming that decisions are made at fixed time intervals.
However, many applications of great importance, including healthcare, do not
satisfy this assumption, yet they are commonly modelled as MDPs after an
artificial reshaping of the data. In addition, most healthcare (and similar)
problems are offline by nature, allowing for only retrospective studies. To
address both challenges, we begin by discussing the Semi-MDP (SMDP) framework,
which formally handles actions of variable timings. We next present a formal
way to apply SMDP modifications to nearly any given value-based offline RL
method. We use this theory to introduce three SMDP-based offline RL algorithms,
namely, SDQN, SDDQN, and SBCQ. We then experimentally demonstrate that these
SMDP-based algorithms learn the optimal policy in these variable-time
environments, whereas un-directed modifications of MDP modelling lead to
sub-optimal policies. Finally, we apply our new algorithms to a real-world
offline dataset pertaining to warfarin dosing for stroke prevention and
demonstrate similar results.
- Abstract(参考訳): 強化学習(rl)タスクは通常、決定は一定時間間隔で行われると仮定して、マルコフ決定プロセス(mdps)として構成される。
しかし、医療を含む多くの重要な応用は、この仮定を満たさないが、データを人工的に再構成した後、一般的にMDPとしてモデル化される。
さらに、ほとんどの医療(と同じような)問題は本質的にオフラインであり、レトロスペクティブ研究のみを可能にします。
両課題に対処するために、変数タイミングのアクションを公式に扱うSemi-MDP(SMDP)フレームワークについて議論する。
次に、ほぼ任意の値ベースのオフラインRL法にSMDP修正を適用する公式な方法を示す。
この理論を用いて、SMDPベースのオフラインRLアルゴリズム(SDQN、SDDQN、SBCQ)を3つ導入する。
次に,これらのsmdpに基づくアルゴリズムが可変時間環境において最適なポリシーを学習できることを実験的に実証する。
最後に,脳卒中予防のためのwarfarin dosingに関連する実世界のオフラインデータセットに新しいアルゴリズムを適用し,同様の結果を示す。
関連論文リスト
- Tractable Offline Learning of Regular Decision Processes [50.11277112628193]
この研究は、正則決定過程(RDP)と呼ばれる非マルコフ環境のクラスにおけるオフライン強化学習(RL)を研究する。
インスは、未来の観測と過去の相互作用からの報酬の未知の依存を実験的に捉えることができる。
多くのアルゴリズムは、まずこの未知の依存関係を自動学習技術を用いて再構築する。
論文 参考訳(メタデータ) (2024-09-04T14:26:58Z) - Twice Regularized Markov Decision Processes: The Equivalence between
Robustness and Regularization [64.60253456266872]
マルコフ決定プロセス(MDP)は、変化または部分的に知られているシステムのダイナミクスを扱うことを目的としている。
規則化されたMDPは、時間的複雑さを損なうことなく、ポリシー学習の安定性を高める。
ベルマン作用素は、収束と一般化を保証する計画と学習スキームを導出することができる。
論文 参考訳(メタデータ) (2023-03-12T13:03:28Z) - Reinforcement Learning in the Wild with Maximum Likelihood-based Model
Transfer [5.92353064090273]
マルコフ決定過程 (MDP) モデルを未知の, 類似のMDPで効率的に学習し, 計画する問題について検討する。
離散的かつ連続的な設定で MTRL 問題に対処する汎用二段階アルゴリズム MLEMTRL を提案する。
我々は,MLEMTRLがスクラッチから学習するよりも新しいMDPの学習を高速化し,ほぼ最適性能を実現することを実証的に実証した。
論文 参考訳(メタデータ) (2023-02-18T09:47:34Z) - The Impact of Task Underspecification in Evaluating Deep Reinforcement
Learning [1.4711121887106535]
深層強化学習法(DRL)の評価は、この分野の科学的進歩の不可欠な部分である。
本稿では,MDPのパラメータ化ファミリーを検討するためにDRLの評価を増強する。
MDPファミリーの評価は,どの手法を最先端とみなすべきかという疑念を招き,比較的異なる手法の相対的なランク付けをしばしば得ることを示す。
論文 参考訳(メタデータ) (2022-10-16T18:51:55Z) - Twice regularized MDPs and the equivalence between robustness and
regularization [65.58188361659073]
報酬を損なうMDPのポリシーイテレーションは、正規化MDPと同じ時間複雑性を持つことを示す。
正規化MDPを2倍の正規化MDPに一般化する。
論文 参考訳(メタデータ) (2021-10-12T18:33:45Z) - Safe Exploration by Solving Early Terminated MDP [77.10563395197045]
我々は、Early TerminatedP(ET-MDP)の枠組みの下で、安全なRL問題に対処する新しいアプローチを導入する。
まず、ET-MDPを対応するCMDPと同じ最適値関数を持つ非制約アルゴリズムとして定義する。
そこで,文脈モデルに基づく非政治アルゴリズムを提案し,ET-MDPを解き,それに対応するCMDPをより良い性能で解き,学習効率を向上する。
論文 参考訳(メタデータ) (2021-07-09T04:24:40Z) - Sample Efficient Reinforcement Learning In Continuous State Spaces: A
Perspective Beyond Linearity [50.38337893712897]
線形性を仮定しないMDP上の構造条件であるEPW(Effective Planning Window)条件を導入する。
EPW条件は、この条件を満たすMDPを確実に解くアルゴリズムを提供することで、サンプル効率のよいRLを許容することを示した。
また, EPW のような条件の必要性も示し, わずかに非線形な単純な MDP を効率的にサンプリングできないことを示した。
論文 参考訳(メタデータ) (2021-06-15T00:06:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。