論文の概要: Pruning the Way to Reliable Policies: A Multi-Objective Deep Q-Learning
Approach to Critical Care
- arxiv url: http://arxiv.org/abs/2306.08044v2
- Date: Thu, 13 Jul 2023 20:23:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 21:50:38.579724
- Title: Pruning the Way to Reliable Policies: A Multi-Objective Deep Q-Learning
Approach to Critical Care
- Title(参考訳): 信頼政策への道を開く: 批判的ケアに対する多目的深いQ-Learningアプローチ
- Authors: Ali Shirali, Alexander Schubert, Ahmed Alaa
- Abstract要約: 我々は、より信頼性の高いクリティカルケアポリシーを得ることができる深いQ-ラーニングアプローチを導入する。
まず、利用可能なすべての報酬に基づいてアクションセットを抽出し、次に、スパース主報酬に基づいて最終モデルを訓練し、制限されたアクションセットで達成する。
- 参考スコア(独自算出の注目度): 68.8204255655161
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most medical treatment decisions are sequential in nature. Hence, there is
substantial hope that reinforcement learning may make it possible to formulate
precise data-driven treatment plans. However, a key challenge for most
applications in this field is the sparse nature of primarily mortality-based
reward functions, leading to decreased stability of offline estimates. In this
work, we introduce a deep Q-learning approach able to obtain more reliable
critical care policies. This method integrates relevant but noisy intermediate
biomarker signals into the reward specification, without compromising the
optimization of the main outcome of interest (e.g. patient survival). We
achieve this by first pruning the action set based on all available rewards,
and second training a final model based on the sparse main reward but with a
restricted action set. By disentangling accurate and approximated rewards
through action pruning, potential distortions of the main objective are
minimized, all while enabling the extraction of valuable information from
intermediate signals that can guide the learning process. We evaluate our
method in both off-policy and offline settings using simulated environments and
real health records of patients in intensive care units. Our empirical results
indicate that pruning significantly reduces the size of the action space while
staying mostly consistent with the actions taken by physicians, outperforming
the current state-of-the-art offline reinforcement learning method conservative
Q-learning. Our work is a step towards developing reliable policies by
effectively harnessing the wealth of available information in data-intensive
critical care environments.
- Abstract(参考訳): ほとんどの医療上の決定は自然界で順次行われる。
したがって、強化学習によって正確なデータ駆動治療計画を定式化できるという大きな期待がある。
しかし、この分野のほとんどのアプリケーションにとって重要な課題は、主に死亡率に基づく報酬関数の欠如であり、オフライン推定の安定性が低下する。
本研究では,より信頼性の高いクリティカルケアポリシを実現するためのQ-ラーニングアプローチを提案する。
この方法は、関心の主な結果(例えば、患者生存)の最適化を損なうことなく、関連するがノイズの多い中間バイオマーカー信号を報酬仕様に統合する。
まず、利用可能なすべての報酬に基づいてアクションセットを抽出し、次に、スパース主報酬に基づいて最終モデルを訓練し、制限されたアクションセットで達成する。
アクションプルーニングによる正確で近似的な報酬を解消することにより、学習プロセスを導くことのできる中間信号から貴重な情報を抽出することができるとともに、主目的の潜在的な歪みを最小化する。
本手法は,集中治療室の患者をシミュレーションした環境と実際の健康記録を用いて,オフラインとオフラインの両方で評価する。
実験の結果,プルーニングは医師の行動とほぼ一致しながら,動作空間を著しく縮小し,現在最先端のオフライン強化学習法である保守的Q-ラーニングよりも優れていた。
私たちの仕事は、データ集約的クリティカルケア環境で利用可能な情報の豊富な活用によって、信頼できるポリシーを開発するための一歩です。
関連論文リスト
- Policy Optimization for Personalized Interventions in Behavioral Health [8.69967783513041]
デジタルプラットフォームを通じて提供される行動的健康介入は、健康結果を大幅に改善する可能性がある。
患者に対するパーソナライズされた介入を最適化して長期的効果を最大化する問題について検討した。
この問題に対する新たなアプローチとして,政策イテレーションの一段階を近似したDecompPIを提案する。
論文 参考訳(メタデータ) (2023-03-21T21:42:03Z) - Optimal discharge of patients from intensive care via a data-driven
policy learning framework [58.720142291102135]
退院課題は、退院期間の短縮と退院決定後の退院や死亡のリスクとの不確実なトレードオフに対処することが重要である。
本研究は、このトレードオフを捉えるためのエンドツーエンドの汎用フレームワークを導入し、最適放電タイミング決定を推奨する。
データ駆動型アプローチは、患者の生理的状態を捉えた同種で離散的な状態空間表現を導出するために用いられる。
論文 参考訳(メタデータ) (2021-12-17T04:39:33Z) - Non-asymptotic Confidence Intervals of Off-policy Evaluation: Primal and
Dual Bounds [21.520045697447372]
オフ・ポリティィ・アセスメント(OPE)は、以前異なるポリシーの下で収集されたオフラインデータに基づいて、所定のポリシーの期待される報酬を推定するタスクである。
本研究は,非漸近的信頼区間を無限ホリゾンオフポリシー評価で構築する問題を考える。
原始双対最適化に基づく実践的アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-03-09T22:31:20Z) - Clinical Outcome Prediction from Admission Notes using Self-Supervised
Knowledge Integration [55.88616573143478]
臨床テキストからのアウトカム予測は、医師が潜在的なリスクを見落としないようにする。
退院時の診断,手術手順,院内死亡率,長期予測は4つの一般的な結果予測対象である。
複数の公開資料から得られた患者結果に関する知識を統合するために,臨床結果の事前学習を提案する。
論文 参考訳(メタデータ) (2021-02-08T10:26:44Z) - Semi-Supervised Off Policy Reinforcement Learning [3.48396189165489]
健康状態の情報はよくコード化されておらず、臨床記録に埋め込まれることが多い。
そこで本研究では,実測結果を持つ小さなラベル付きデータを効率よく活用する半教師付き学習(SSL)手法と,結果サロゲートを持つ大規模ラベル付きデータを提案する。
提案手法は,少なくとも教師付きアプローチと同じくらい効率的であり,またインプテーションモデルの誤特定にも頑健である。
論文 参考訳(メタデータ) (2020-12-09T00:59:12Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Deep Learning for Virtual Screening: Five Reasons to Use ROC Cost
Functions [80.12620331438052]
深層学習は サイリコの何十億もの分子を 迅速にスクリーニングする 重要なツールとなりました
その重要性にもかかわらず、厳密なクラス不均衡、高い決定しきい値、いくつかのデータセットにおける基底真理ラベルの欠如など、これらのモデルのトレーニングにおいて重大な課題が続いている。
このような場合、クラス不均衡に対するロバスト性から、レシーバ動作特性(ROC)を直接最適化することを好んで論じる。
論文 参考訳(メタデータ) (2020-06-25T08:46:37Z) - Optimizing Medical Treatment for Sepsis in Intensive Care: from
Reinforcement Learning to Pre-Trial Evaluation [2.908482270923597]
本研究の目的は, 介入を最適化する強化学習(RL)が, 学習方針の治験に対する規制に適合する経路を遡及的に得る枠組みを確立することである。
我々は,死の主な原因の一つであり,複雑で不透明な患者動態のため治療が困難である集中治療室の感染症に焦点を当てた。
論文 参考訳(メタデータ) (2020-03-13T20:31:47Z) - Interpretable Off-Policy Evaluation in Reinforcement Learning by
Highlighting Influential Transitions [48.91284724066349]
強化学習におけるオフ政治評価は、医療や教育などの領域における将来の成果を改善するために観察データを使用する機会を提供する。
信頼区間のような従来の尺度は、ノイズ、限られたデータ、不確実性のために不十分である可能性がある。
我々は,人間専門家が政策評価評価評価の妥当性を分析できるように,ハイブリッドAIシステムとして機能する手法を開発した。
論文 参考訳(メタデータ) (2020-02-10T00:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。