論文の概要: On Safer Reinforcement Learning Policies for Sedation and Analgesia in Intensive Care
- arxiv url: http://arxiv.org/abs/2601.23154v1
- Date: Fri, 30 Jan 2026 16:40:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.563827
- Title: On Safer Reinforcement Learning Policies for Sedation and Analgesia in Intensive Care
- Title(参考訳): 集中治療における鎮静鎮痛・鎮痛のためのサファー強化学習法について
- Authors: Joel Romero-Hernandez, Oscar Camara,
- Abstract要約: 集中治療における痛み管理は、治療目標と患者の安全との間の複雑なトレードオフを伴う。
我々は,オピオイド,プロポフォール,ベンゾジアゼピン,デキソメデトミジンを2つの目標に従って処方するための政策を訓練した。
その結果,2つの政策は低痛に関連するが,第1政策からの行動は死亡と正の相関がみられ,第2政策の提案した政策は負の相関がみられた。
- 参考スコア(独自算出の注目度): 0.05789654849162464
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Pain management in intensive care usually involves complex trade-offs between therapeutic goals and patient safety, since both inadequate and excessive treatment may induce serious sequelae. Reinforcement learning can help address this challenge by learning medication dosing policies from retrospective data. However, prior work on sedation and analgesia has optimized for objectives that do not value patient survival while relying on algorithms unsuitable for imperfect information settings. We investigated the risks of these design choices by implementing a deep reinforcement learning framework to suggest hourly medication doses under partial observability. Using data from 47,144 ICU stays in the MIMIC-IV database, we trained policies to prescribe opioids, propofol, benzodiazepines, and dexmedetomidine according to two goals: reduce pain or jointly reduce pain and mortality. We found that, although the two policies were associated with lower pain, actions from the first policy were positively correlated with mortality, while those proposed by the second policy were negatively correlated. This suggests that valuing long-term outcomes could be critical for safer treatment policies, even if a short-term goal remains the primary objective.
- Abstract(参考訳): 集中治療における痛み管理は通常、治療目標と患者の安全との間の複雑なトレードオフを伴う。
強化学習は、振り返りデータから薬物投与ポリシーを学ぶことで、この課題に対処するのに役立つ。
しかし, 鎮静, 鎮痛に関する先行研究は, 不完全な情報設定に適さないアルゴリズムを頼りながら, 患者の生存を重要視しない目的に最適化されている。
本研究では, 半可観測条件下での時間的服用を推奨するための深層強化学習フレームワークを導入することにより, これらの設計選択のリスクについて検討した。
47,144 ICUのデータをMIMIC-IVデータベースに残し,オピオイド,プロポフォール,ベンゾジアゼピン,デキソメデトミジンを2つの目標に従って処方するための政策を訓練した。
その結果,2つの政策は低痛に関連するが,第1政策からの行動は死亡と正の相関がみられ,第2政策の提案した政策は負の相関がみられた。
これは、たとえ短期目標が主目的のままであっても、より安全な治療方針のために長期的な成果を評価することが重要であることを示唆している。
関連論文リスト
- Optimizing Warfarin Dosing Using Contextual Bandit: An Offline Policy
Learning and Evaluation Method [2.8806234438838256]
抗凝固薬であるワーファリンは、異常な血液凝固に関連する疾患を予防し、対処するために配合される。
個々の反応の変化によって適切な服薬を見つけることは依然として困難であり、誤った服薬を処方することは深刻な結果をもたらす可能性がある。
最適な個人用服用戦略を決定するために,文脈的包帯と強化学習を用いた。
論文 参考訳(メタデータ) (2024-02-16T23:13:05Z) - Safe and Interpretable Estimation of Optimal Treatment Regimes [54.257304443780434]
我々は、最適な治療体制を特定するための安全かつ解釈可能な枠組みを運用する。
本研究は患者の医療歴と薬理学的特徴に基づくパーソナライズされた治療戦略を支援する。
論文 参考訳(メタデータ) (2023-10-23T19:59:10Z) - StratMed: Relevance Stratification between Biomedical Entities for
Sparsity on Medication Recommendation [9.296433860766165]
StratMedは、長い尾の問題を克服し、スパースデータの完全な学習を実現する成層戦略である。
また、薬品の組み合わせの安全性と正確性に関する相互制約の問題に対処するために、デュアルプロパティネットワークを利用する。
本モデルでは,安全性リスクを15.08%削減し,精度を0.36%向上し,トレーニング時間消費を81.66%削減する。
論文 参考訳(メタデータ) (2023-08-31T14:59:32Z) - Pruning the Way to Reliable Policies: A Multi-Objective Deep Q-Learning Approach to Critical Care [46.2482873419289]
我々は、より信頼性の高いクリティカルケアポリシーを得るための深いQ-ラーニングアプローチを導入する。
本手法を,集中治療室のシミュレーション環境と実際の健康記録を用いて,オフライン・オフ・セッティングで評価した。
論文 参考訳(メタデータ) (2023-06-13T18:02:57Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Optimal discharge of patients from intensive care via a data-driven
policy learning framework [58.720142291102135]
退院課題は、退院期間の短縮と退院決定後の退院や死亡のリスクとの不確実なトレードオフに対処することが重要である。
本研究は、このトレードオフを捉えるためのエンドツーエンドの汎用フレームワークを導入し、最適放電タイミング決定を推奨する。
データ駆動型アプローチは、患者の生理的状態を捉えた同種で離散的な状態空間表現を導出するために用いられる。
論文 参考訳(メタデータ) (2021-12-17T04:39:33Z) - Optimizing Medical Treatment for Sepsis in Intensive Care: from
Reinforcement Learning to Pre-Trial Evaluation [2.908482270923597]
本研究の目的は, 介入を最適化する強化学習(RL)が, 学習方針の治験に対する規制に適合する経路を遡及的に得る枠組みを確立することである。
我々は,死の主な原因の一つであり,複雑で不透明な患者動態のため治療が困難である集中治療室の感染症に焦点を当てた。
論文 参考訳(メタデータ) (2020-03-13T20:31:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。