論文の概要: Guardian-regularized Safe Offline Reinforcement Learning for Smart Weaning of Mechanical Circulatory Devices
- arxiv url: http://arxiv.org/abs/2511.06111v1
- Date: Sat, 08 Nov 2025 19:32:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.763438
- Title: Guardian-regularized Safe Offline Reinforcement Learning for Smart Weaning of Mechanical Circulatory Devices
- Title(参考訳): 機械式循環器装置のスマートウィーニングのためのガーディアン型安全オフライン強化学習
- Authors: Aysin Tumay, Sophia Sun, Sonia Fereidooni, Aaron Dumas, Elise Jortberg, Rose Yu,
- Abstract要約: 心原性ショック患者における機械的循環補助装置の自動織りに関するシーケンシャル意思決定問題について検討した。
オフライン強化学習は、シーケンシャルな意思決定タスクで成功している。
2つの重要なコントリビューションを持つエンドツーエンドの機械学習フレームワークを開発します。
- 参考スコア(独自算出の注目度): 19.512275639322638
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the sequential decision-making problem for automated weaning of mechanical circulatory support (MCS) devices in cardiogenic shock patients. MCS devices are percutaneous micro-axial flow pumps that provide left ventricular unloading and forward blood flow, but current weaning strategies vary significantly across care teams and lack data-driven approaches. Offline reinforcement learning (RL) has proven to be successful in sequential decision-making tasks, but our setting presents challenges for training and evaluating traditional offline RL methods: prohibition of online patient interaction, highly uncertain circulatory dynamics due to concurrent treatments, and limited data availability. We developed an end-to-end machine learning framework with two key contributions (1) Clinically-aware OOD-regularized Model-based Policy Optimization (CORMPO), a density-regularized offline RL algorithm for out-of-distribution suppression that also incorporates clinically-informed reward shaping and (2) a Transformer-based probabilistic digital twin that models MCS circulatory dynamics for policy evaluation with rich physiological and clinical metrics. We prove that \textsf{CORMPO} achieves theoretical performance guarantees under mild assumptions. CORMPO attains a higher reward than the offline RL baselines by 28% and higher scores in clinical metrics by 82.6% on real and synthetic datasets. Our approach offers a principled framework for safe offline policy learning in high-stakes medical applications where domain expertise and safety constraints are essential.
- Abstract(参考訳): 心原性ショック患者における機械的循環補助装置の自動織りに関するシーケンシャル意思決定問題について検討した。
MCSデバイスは経皮的微小軸流ポンプであり、左室アンロードと前行血流を提供するが、現在のウィーニング戦略はケアチームによって大きく異なり、データ駆動アプローチが欠如している。
オフライン強化学習 (RL) は, 逐次意思決定作業において有効であることが証明されているが, 従来のオフラインRL手法の訓練と評価の課題として, オンライン患者間相互作用の禁止, 同時処理による循環動態の高度不確実化, データ可用性の制限などがあげられる。
筆者らは,2つの重要なコントリビューションを持つエンド・ツー・エンド・エンド・エンド・エンド・マシンラーニング・フレームワークを開発した。1つは,OOD-regularized Model-based Policy Optimization (CORMPO) である。
我々は, 理論的な性能保証を軽度な仮定で達成できることを証明した。
CORMPOはオフラインのRLベースラインよりも28%高く、臨床メトリクスのスコアは82.6%高い。
弊社のアプローチは、ドメインの専門知識と安全性の制約が不可欠であるハイステークな医療アプリケーションにおいて、安全なオフラインポリシー学習のための原則化されたフレームワークを提供する。
関連論文リスト
- Beyond Prediction: Reinforcement Learning as the Defining Leap in Healthcare AI [38.11241251343041]
強化学習(Reinforcement Learning, RL)は、医療における人工知能の適用方法の根本的な変化である。
単に結果を予測するのではなく、RLは長期的な目標で介入を積極的に決定する。
本稿では、臨床環境におけるエージェントインテリジェンスへのシフトではなく、一連のツールとして、RLのヘルスケアの台頭について検討する。
論文 参考訳(メタデータ) (2025-08-28T07:05:24Z) - Distribution-Free Uncertainty Quantification in Mechanical Ventilation Treatment: A Conformal Deep Q-Learning Framework [2.5070297884580874]
本研究では,集中治療室における機械的換気を最適化するための,分布自由な共形深度Q-ラーニング手法であるConformalDQNを紹介する。
我々はMIMIC-IVデータベースからICU患者記録を用いてモデルを訓練・評価した。
論文 参考訳(メタデータ) (2024-12-17T06:55:20Z) - Pruning the Way to Reliable Policies: A Multi-Objective Deep Q-Learning Approach to Critical Care [46.2482873419289]
我々は、より信頼性の高いクリティカルケアポリシーを得るための深いQ-ラーニングアプローチを導入する。
本手法を,集中治療室のシミュレーション環境と実際の健康記録を用いて,オフライン・オフ・セッティングで評価した。
論文 参考訳(メタデータ) (2023-06-13T18:02:57Z) - Deep Offline Reinforcement Learning for Real-world Treatment
Optimization Applications [3.770564448216192]
オフラインRLトレーニングにおける動作不均衡に対処するための,実践的かつ理論的に基礎的な遷移サンプリング手法を提案する。
糖尿病と敗血症治療最適化のための2つの現実的課題について広範な実験を行った。
本提案手法は, 様々な原則および臨床関連指標を用いて, 期待される健康影響を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2023-02-15T09:30:57Z) - Auto-FedRL: Federated Hyperparameter Optimization for
Multi-institutional Medical Image Segmentation [48.821062916381685]
Federated Learning(FL)は、明示的なデータ共有を避けながら協調的なモデルトレーニングを可能にする分散機械学習技術である。
本稿では,Auto-FedRLと呼ばれる,効率的な強化学習(RL)に基づくフェデレーションハイパーパラメータ最適化アルゴリズムを提案する。
提案手法の有効性は,CIFAR-10データセットと2つの実世界の医用画像セグメンテーションデータセットの不均一なデータ分割に対して検証される。
論文 参考訳(メタデータ) (2022-03-12T04:11:42Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Deep Learning for Virtual Screening: Five Reasons to Use ROC Cost
Functions [80.12620331438052]
深層学習は サイリコの何十億もの分子を 迅速にスクリーニングする 重要なツールとなりました
その重要性にもかかわらず、厳密なクラス不均衡、高い決定しきい値、いくつかのデータセットにおける基底真理ラベルの欠如など、これらのモデルのトレーニングにおいて重大な課題が続いている。
このような場合、クラス不均衡に対するロバスト性から、レシーバ動作特性(ROC)を直接最適化することを好んで論じる。
論文 参考訳(メタデータ) (2020-06-25T08:46:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。