論文の概要: Pruning the Way to Reliable Policies: A Multi-Objective Deep Q-Learning Approach to Critical Care
- arxiv url: http://arxiv.org/abs/2306.08044v3
- Date: Mon, 14 Oct 2024 01:56:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:04:12.736323
- Title: Pruning the Way to Reliable Policies: A Multi-Objective Deep Q-Learning Approach to Critical Care
- Title(参考訳): 信頼性の高い政策への道を開く: 批判的ケアに対する多目的深いQ-Learningアプローチ
- Authors: Ali Shirali, Alexander Schubert, Ahmed Alaa,
- Abstract要約: 我々は、より信頼性の高いクリティカルケアポリシーを得るための深いQ-ラーニングアプローチを導入する。
本手法を,集中治療室のシミュレーション環境と実際の健康記録を用いて,オフライン・オフ・セッティングで評価した。
- 参考スコア(独自算出の注目度): 46.2482873419289
- License:
- Abstract: Medical treatments often involve a sequence of decisions, each informed by previous outcomes. This process closely aligns with reinforcement learning (RL), a framework for optimizing sequential decisions to maximize cumulative rewards under unknown dynamics. While RL shows promise for creating data-driven treatment plans, its application in medical contexts is challenging due to the frequent need to use sparse rewards, primarily defined based on mortality outcomes. This sparsity can reduce the stability of offline estimates, posing a significant hurdle in fully utilizing RL for medical decision-making. We introduce a deep Q-learning approach to obtain more reliable critical care policies by integrating relevant but noisy frequently measured biomarker signals into the reward specification without compromising the optimization of the main outcome. Our method prunes the action space based on all available rewards before training a final model on the sparse main reward. This approach minimizes potential distortions of the main objective while extracting valuable information from intermediate signals to guide learning. We evaluate our method in off-policy and offline settings using simulated environments and real health records from intensive care units. Our empirical results demonstrate that our method outperforms common offline RL methods such as conservative Q-learning and batch-constrained deep Q-learning. By disentangling sparse rewards and frequently measured reward proxies through action pruning, our work represents a step towards developing reliable policies that effectively harness the wealth of available information in data-intensive critical care environments.
- Abstract(参考訳): 医学的治療は、しばしば一連の決定を伴い、それぞれが以前の結果によって通知される。
このプロセスは、未知のダイナミクスの下で累積報酬を最大化するシーケンシャルな決定を最適化するためのフレームワークである強化学習(RL)と密接に一致している。
RLは、データ駆動治療計画を作成することを約束するが、その医学的文脈での応用は、主に死亡結果に基づいて定義されたスパース報酬を頻繁に使用する必要があるため、困難である。
この間隔はオフライン推定の安定性を低下させ、医学的意思決定にRLを完全に活用する上で大きなハードルとなる。
そこで,本研究では,主結果の最適化を損なうことなく,関連性はあるがノイズの多いバイオマーカー信号を報酬仕様に組み込むことにより,より信頼性の高いクリティカルケアポリシーを得るためのQ-ラーニング手法を提案する。
本手法は, 疎度な主報酬に関する最終モデルをトレーニングする前に, 利用可能なすべての報酬に基づいて, 行動空間を訓練する。
このアプローチは、中間信号から貴重な情報を抽出し、ガイド学習を行いながら、主目的の潜在的歪みを最小限に抑える。
本手法を,集中治療室のシミュレーション環境と実際の健康記録を用いて,オフライン・オフ・セッティングで評価した。
実験の結果,本手法は,保守的なQ-ラーニングやバッチ制約の深いQ-ラーニングなど,一般的なオフラインRL手法よりも優れていることが示された。
我々の研究は、スパース報酬と頻繁に測定される報酬プロキシをアクションプルーニングを通じて切り離すことによって、データ集約型クリティカルケア環境において、利用可能な情報の富を効果的に活用する信頼性の高いポリシーを開発するための一歩である。
関連論文リスト
- OMG-RL:Offline Model-based Guided Reward Learning for Heparin Treatment [0.4998632546280975]
本研究は,臨床医の意図を反映した報酬関数の開発に焦点をあてる。
限られたデータから専門家の意図を含むパラメータ化された報酬関数を学習する。
このアプローチはヘパリン服薬問題だけでなく、一般のRLベースの薬物服薬タスクにも広く利用することができる。
論文 参考訳(メタデータ) (2024-09-20T07:51:37Z) - Sample Complexity of Preference-Based Nonparametric Off-Policy
Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。
ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文 参考訳(メタデータ) (2023-10-16T16:27:06Z) - Deep Offline Reinforcement Learning for Real-world Treatment
Optimization Applications [3.770564448216192]
オフラインRLトレーニングにおける動作不均衡に対処するための,実践的かつ理論的に基礎的な遷移サンプリング手法を提案する。
糖尿病と敗血症治療最適化のための2つの現実的課題について広範な実験を行った。
本提案手法は, 様々な原則および臨床関連指標を用いて, 期待される健康影響を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2023-02-15T09:30:57Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Non-asymptotic Confidence Intervals of Off-policy Evaluation: Primal and
Dual Bounds [21.520045697447372]
オフ・ポリティィ・アセスメント(OPE)は、以前異なるポリシーの下で収集されたオフラインデータに基づいて、所定のポリシーの期待される報酬を推定するタスクである。
本研究は,非漸近的信頼区間を無限ホリゾンオフポリシー評価で構築する問題を考える。
原始双対最適化に基づく実践的アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-03-09T22:31:20Z) - Scalable Bayesian Inverse Reinforcement Learning [93.27920030279586]
我々はAVRIL(Adroximate Variational Reward Imitation Learning)を紹介する。
本手法は,逆強化学習問題の誤った性質に対処する。
本手法を従来の制御シミュレーションと並行して実際の医療データに適用し,現在の手法の範囲を超えた環境におけるベイズ報酬推論を実証する。
論文 参考訳(メタデータ) (2021-02-12T12:32:02Z) - Semi-Supervised Off Policy Reinforcement Learning [3.48396189165489]
健康状態の情報はよくコード化されておらず、臨床記録に埋め込まれることが多い。
そこで本研究では,実測結果を持つ小さなラベル付きデータを効率よく活用する半教師付き学習(SSL)手法と,結果サロゲートを持つ大規模ラベル付きデータを提案する。
提案手法は,少なくとも教師付きアプローチと同じくらい効率的であり,またインプテーションモデルの誤特定にも頑健である。
論文 参考訳(メタデータ) (2020-12-09T00:59:12Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Optimizing Medical Treatment for Sepsis in Intensive Care: from
Reinforcement Learning to Pre-Trial Evaluation [2.908482270923597]
本研究の目的は, 介入を最適化する強化学習(RL)が, 学習方針の治験に対する規制に適合する経路を遡及的に得る枠組みを確立することである。
我々は,死の主な原因の一つであり,複雑で不透明な患者動態のため治療が困難である集中治療室の感染症に焦点を当てた。
論文 参考訳(メタデータ) (2020-03-13T20:31:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。