論文の概要: Deep Offline Reinforcement Learning for Real-world Treatment
Optimization Applications
- arxiv url: http://arxiv.org/abs/2302.07549v2
- Date: Tue, 13 Jun 2023 12:24:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 17:44:54.810888
- Title: Deep Offline Reinforcement Learning for Real-world Treatment
Optimization Applications
- Title(参考訳): 実世界の治療最適化アプリケーションのための深部オフライン強化学習
- Authors: Milashini Nambiar and Supriyo Ghosh and Priscilla Ong and Yu En Chan
and Yong Mong Bee and Pavitra Krishnaswamy
- Abstract要約: オフラインRLトレーニングにおける動作不均衡に対処するための,実践的かつ理論的に基礎的な遷移サンプリング手法を提案する。
糖尿病と敗血症治療最適化のための2つの現実的課題について広範な実験を行った。
本提案手法は, 様々な原則および臨床関連指標を用いて, 期待される健康影響を大幅に改善できることを示す。
- 参考スコア(独自算出の注目度): 3.770564448216192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is increasing interest in data-driven approaches for recommending
optimal treatment strategies in many chronic disease management and critical
care applications. Reinforcement learning methods are well-suited to this
sequential decision-making problem, but must be trained and evaluated
exclusively on retrospective medical record datasets as direct online
exploration is unsafe and infeasible. Despite this requirement, the vast
majority of treatment optimization studies use off-policy RL methods (e.g.,
Double Deep Q Networks (DDQN) or its variants) that are known to perform poorly
in purely offline settings. Recent advances in offline RL, such as Conservative
Q-Learning (CQL), offer a suitable alternative. But there remain challenges in
adapting these approaches to real-world applications where suboptimal examples
dominate the retrospective dataset and strict safety constraints need to be
satisfied. In this work, we introduce a practical and theoretically grounded
transition sampling approach to address action imbalance during offline RL
training. We perform extensive experiments on two real-world tasks for diabetes
and sepsis treatment optimization to compare performance of the proposed
approach against prominent off-policy and offline RL baselines (DDQN and CQL).
Across a range of principled and clinically relevant metrics, we show that our
proposed approach enables substantial improvements in expected health outcomes
and in accordance with relevant practice and safety guidelines.
- Abstract(参考訳): 多くの慢性疾患管理やクリティカルケアのアプリケーションにおいて最適な治療戦略を推奨するデータ駆動アプローチへの関心が高まっている。
強化学習方法は、このシーケンシャルな意思決定問題に適しているが、オンラインの直接探索が安全で実現不可能であるため、振り返りの医療記録データセットでのみ訓練され、評価されなければならない。
この要求にもかかわらず、ほとんどの処理最適化研究は、純粋なオフライン環境では性能が良くないことが知られている、非政治的なRL法(Double Deep Q Networks (DDQN)など)を使用している。
保守的なQ-Learning(CQL)など、オフラインRLの最近の進歩は、適切な代替手段を提供する。
しかし、これらのアプローチを現実のアプリケーションに適用する上での課題は、サブ最適例がレトロスペクティブデータセットを支配し、厳格な安全制約を満たす必要があることだ。
本研究では,オフラインRLトレーニングにおける動作不均衡に対処するための,実践的かつ理論的に基礎的な遷移サンプリング手法を提案する。
糖尿病と敗血症の治療最適化のための2つの実世界のタスクを広範囲に実験し,提案手法の性能を著明なオフ・ポリシーとオフラインのrlベースライン(ddqnとcql)と比較した。
提案手法は, 原則的, 臨床的に関連のある指標にまたがって, 適切な実践と安全ガイドラインに従って, 期待される健康成果を実質的に改善できることを示す。
関連論文リスト
- Pruning the Way to Reliable Policies: A Multi-Objective Deep Q-Learning Approach to Critical Care [46.2482873419289]
我々は、より信頼性の高いクリティカルケアポリシーを得るための深いQ-ラーニングアプローチを導入する。
本手法を,集中治療室のシミュレーション環境と実際の健康記録を用いて,オフライン・オフ・セッティングで評価した。
論文 参考訳(メタデータ) (2023-06-13T18:02:57Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - Offline RL Policies Should be Trained to be Adaptive [89.8580376798065]
ベイズ的意味において、オフラインRLで最適に振る舞うには暗黙のPOMDPを解く必要があることを示す。
結果として、オフラインRLの最適ポリシーは、現在の状態だけでなく、評価中にこれまで見られたすべての遷移に依存して適応されなければならない。
本稿では、この最適適応ポリシーを近似するモデルフリーアルゴリズムを提案し、オフラインRLベンチマークにおける適応ポリシーの学習の有効性を実証する。
論文 参考訳(メタデータ) (2022-07-05T17:58:33Z) - Federated Offline Reinforcement Learning [55.326673977320574]
マルチサイトマルコフ決定プロセスモデルを提案する。
我々は,オフラインRLを対象とした最初のフェデレーション最適化アルゴリズムを設計する。
提案アルゴリズムでは,学習ポリシーの準最適性は,データが分散していないような速度に匹敵する,理論的保証を与える。
論文 参考訳(メタデータ) (2022-06-11T18:03:26Z) - A Conservative Q-Learning approach for handling distribution shift in
sepsis treatment strategies [0.0]
どんな介入が最善かについては合意が得られず、異なる患者が同じ治療に対して非常に異なる反応を示す。
深層強化学習法は、医師の行動を反映した治療戦略のための最適なポリシーを考案するために用いられる。
この方針は、集中治療室の診療医が敗血症患者を治療し、生存率を向上させる上でより良い判断を下すのに役立つ可能性がある。
論文 参考訳(メタデータ) (2022-03-25T19:50:18Z) - Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。
主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。
理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文 参考訳(メタデータ) (2021-11-29T06:29:49Z) - Uncertainty-Based Offline Reinforcement Learning with Diversified
Q-Ensemble [16.92791301062903]
本稿では,Q値予測の信頼性を考慮した不確実性に基づくオフラインRL手法を提案する。
意外なことに、カットされたQ-ラーニングとともにQ-networksの数を単純に増やすことで、既存のオフラインRLメソッドを様々なタスクで大幅に上回ります。
論文 参考訳(メタデータ) (2021-10-04T16:40:13Z) - Model Selection for Offline Reinforcement Learning: Practical
Considerations for Healthcare Settings [13.376364233897528]
強化学習は治療方針を学習し、医療における意思決定を支援するために用いられる。
モデル選択のための標準的な検証パイプラインは、実際の環境で学習したポリシーを実行する必要がある。
我々の研究は、オフラインのRLモデル選択のための実用的なガイドとして機能し、実世界のデータセットを使用してRL実践者がポリシーを選択するのに役立つ。
論文 参考訳(メタデータ) (2021-07-23T02:41:51Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。