論文の概要: Offline Inverse Constrained Reinforcement Learning for Safe-Critical Decision Making in Healthcare
- arxiv url: http://arxiv.org/abs/2410.07525v2
- Date: Mon, 14 Oct 2024 05:25:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 16:36:31.309427
- Title: Offline Inverse Constrained Reinforcement Learning for Safe-Critical Decision Making in Healthcare
- Title(参考訳): 医療における安全批判的意思決定のためのオフライン逆強化学習
- Authors: Nan Fang, Guiliang Liu, Wei Gong,
- Abstract要約: 医療に応用された強化学習(RL)は、過度の服用や急激な変化など、安全でない医療判断や治療につながる可能性がある。
最近の逆制約強化学習(ICRL)は、専門家による実証から制約を推測する有望なアプローチである。
これらの設定は、オフラインデータセットに記録された歴史的な処理に依存する医療における意思決定システムの実践的な要件とは一致しない。
具体的には,1)制約の重み付けに非マルコフ層を用いながら,歴史的決定と観察を制約モデルに組み込む因果的注意機構を利用する。
- 参考スコア(独自算出の注目度): 8.920060884688395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) applied in healthcare can lead to unsafe medical decisions and treatment, such as excessive dosages or abrupt changes, often due to agents overlooking common-sense constraints. Consequently, Constrained Reinforcement Learning (CRL) is a natural choice for safe decisions. However, specifying the exact cost function is inherently difficult in healthcare. Recent Inverse Constrained Reinforcement Learning (ICRL) is a promising approach that infers constraints from expert demonstrations. ICRL algorithms model Markovian decisions in an interactive environment. These settings do not align with the practical requirement of a decision-making system in healthcare, where decisions rely on historical treatment recorded in an offline dataset. To tackle these issues, we propose the Constraint Transformer (CT). Specifically, 1) we utilize a causal attention mechanism to incorporate historical decisions and observations into the constraint modeling, while employing a Non-Markovian layer for weighted constraints to capture critical states. 2) A generative world model is used to perform exploratory data augmentation, enabling offline RL methods to simulate unsafe decision sequences. In multiple medical scenarios, empirical results demonstrate that CT can capture unsafe states and achieve strategies that approximate lower mortality rates, reducing the occurrence probability of unsafe behaviors.
- Abstract(参考訳): 医療に応用された強化学習(RL)は、過度の服用や急激な変化など、安全でない医療判断や治療につながる可能性がある。
その結果,CRL(Constrained Reinforcement Learning)は,安全な意思決定のための自然な選択である。
しかし、医療において、正確なコスト関数を特定することは本質的に困難である。
最近の逆制約強化学習(ICRL)は、専門家による実証から制約を推測する有望なアプローチである。
ICRLアルゴリズムは対話環境におけるマルコフ決定をモデル化する。
これらの設定は、オフラインデータセットに記録された歴史的な処理に依存する医療における意思決定システムの実践的な要件とは一致しない。
これらの問題に対処するために,制約変換器 (CT) を提案する。
具体的には
1) 歴史的決定と観察を制約モデルに組み込むために, 因果的注意機構を利用する一方で, 重み付き制約に非マルコフ層を用い, 臨界状態を捉える。
2) 生成的世界モデルを用いて探索的データ拡張を行い, オフラインRL法で安全でない決定シーケンスをシミュレートする。
複数の医療シナリオにおいて、CTは安全でない状態を捕捉し、死亡率を近似し、安全でない行動の発生確率を減少させる戦略を達成できることが実証された。
関連論文リスト
- Decision-Focused Uncertainty Quantification [32.93992587758183]
我々は、下流決定損失関数を考慮した予測セットを生成するために、共形予測に基づくフレームワークを開発する。
本手法は皮膚疾患の階層構造を効果的に取り入れた医療診断における実世界のユースケースを提案する。
論文 参考訳(メタデータ) (2024-10-02T17:22:09Z) - Accountability in Offline Reinforcement Learning: Explaining Decisions
with a Corpus of Examples [70.84093873437425]
本稿では、オフラインデータセットを決定コーパスとして利用するAOC(Accountable Offline Controller)を紹介する。
AOCはローデータシナリオで効果的に動作し、厳密なオフラインの模倣設定まで拡張でき、保存性と適応性の両方の品質を示す。
シミュレーションおよび実世界の医療シナリオにおいて、AOCのパフォーマンスを評価し、説明責任を維持しながら高いレベルのパフォーマンスでオフライン制御タスクを管理する能力を強調した。
論文 参考訳(メタデータ) (2023-10-11T17:20:32Z) - Pruning the Way to Reliable Policies: A Multi-Objective Deep Q-Learning Approach to Critical Care [46.2482873419289]
我々は、より信頼性の高いクリティカルケアポリシーを得るための深いQ-ラーニングアプローチを導入する。
本手法を,集中治療室のシミュレーション環境と実際の健康記録を用いて,オフライン・オフ・セッティングで評価した。
論文 参考訳(メタデータ) (2023-06-13T18:02:57Z) - Deep Offline Reinforcement Learning for Real-world Treatment
Optimization Applications [3.770564448216192]
オフラインRLトレーニングにおける動作不均衡に対処するための,実践的かつ理論的に基礎的な遷移サンプリング手法を提案する。
糖尿病と敗血症治療最適化のための2つの現実的課題について広範な実験を行った。
本提案手法は, 様々な原則および臨床関連指標を用いて, 期待される健康影響を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2023-02-15T09:30:57Z) - Federated Offline Reinforcement Learning [55.326673977320574]
マルチサイトマルコフ決定プロセスモデルを提案する。
我々は,オフラインRLを対象とした最初のフェデレーション最適化アルゴリズムを設計する。
提案アルゴリズムでは,学習ポリシーの準最適性は,データが分散していないような速度に匹敵する,理論的保証を与える。
論文 参考訳(メタデータ) (2022-06-11T18:03:26Z) - Optimal discharge of patients from intensive care via a data-driven
policy learning framework [58.720142291102135]
退院課題は、退院期間の短縮と退院決定後の退院や死亡のリスクとの不確実なトレードオフに対処することが重要である。
本研究は、このトレードオフを捉えるためのエンドツーエンドの汎用フレームワークを導入し、最適放電タイミング決定を推奨する。
データ駆動型アプローチは、患者の生理的状態を捉えた同種で離散的な状態空間表現を導出するために用いられる。
論文 参考訳(メタデータ) (2021-12-17T04:39:33Z) - Medical Dead-ends and Learning to Identify High-risk States and
Treatments [7.821495984906274]
状態空間のデッドエンドの可能性を特定する、本質的に異なるアプローチを導入します。
集中治療室の患者の状態に焦点をあて, 医療死亡者」は, 将来的な治療シーケンスによらず, 患者が退院することを示す。
論文 参考訳(メタデータ) (2021-10-08T15:13:20Z) - Enabling risk-aware Reinforcement Learning for medical interventions
through uncertainty decomposition [9.208828373290487]
複雑な制御と意思決定の問題に対処するためのツールとして強化学習(RL)が登場している。
エージェントが学習した明らかに最適なポリシーと、実際の展開の間のギャップを埋めることは、しばしば困難である。
本稿では,各不確実性のネット効果を分解して不確かさを再現するために,分布的アプローチ (UA-DQN) を再キャストする方法を提案する。
論文 参考訳(メタデータ) (2021-09-16T09:36:53Z) - Privacy-preserving medical image analysis [53.4844489668116]
医用画像におけるプライバシ保護機械学習(PPML)のためのソフトウェアフレームワークであるPriMIAを提案する。
集合型学習モデルの分類性能は,未発見データセットの人間専門家と比較して有意に良好である。
グラデーションベースのモデル反転攻撃に対するフレームワークのセキュリティを実証的に評価する。
論文 参考訳(メタデータ) (2020-12-10T13:56:00Z) - Chance-Constrained Control with Lexicographic Deep Reinforcement
Learning [77.34726150561087]
本稿では,レキシックなDeep Reinforcement Learning(DeepRL)に基づく確率制約マルコフ決定プロセスを提案する。
有名なDeepRLアルゴリズムDQNの辞書版も提案され、シミュレーションによって検証されている。
論文 参考訳(メタデータ) (2020-10-19T13:09:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。