論文の概要: Offline Guarded Safe Reinforcement Learning for Medical Treatment Optimization Strategies
- arxiv url: http://arxiv.org/abs/2505.16242v1
- Date: Thu, 22 May 2025 05:22:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.053337
- Title: Offline Guarded Safe Reinforcement Learning for Medical Treatment Optimization Strategies
- Title(参考訳): 医療最適化戦略のためのオフラインガード付き安全強化学習
- Authors: Runze Yan, Xun Shen, Akifumi Wachi, Sebastien Gros, Anni Zhao, Xiao Hu,
- Abstract要約: アウト・オブ・ディストリビューション(OOD)問題は、医療シナリオにオフライン強化学習(RL)を適用する際に重大なリスクをもたらす。
モデルベースオフラインRLフレームワークであるtextitOffline Guarded Safe Reinforcement Learning (mathsfOGSRL$)を提案する。
- 参考スコア(独自算出の注目度): 9.123989363028945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When applying offline reinforcement learning (RL) in healthcare scenarios, the out-of-distribution (OOD) issues pose significant risks, as inappropriate generalization beyond clinical expertise can result in potentially harmful recommendations. While existing methods like conservative Q-learning (CQL) attempt to address the OOD issue, their effectiveness is limited by only constraining action selection by suppressing uncertain actions. This action-only regularization imitates clinician actions that prioritize short-term rewards, but it fails to regulate downstream state trajectories, thereby limiting the discovery of improved long-term treatment strategies. To safely improve policy beyond clinician recommendations while ensuring that state-action trajectories remain in-distribution, we propose \textit{Offline Guarded Safe Reinforcement Learning} ($\mathsf{OGSRL}$), a theoretically grounded model-based offline RL framework. $\mathsf{OGSRL}$ introduces a novel dual constraint mechanism for improving policy with reliability and safety. First, the OOD guardian is established to specify clinically validated regions for safe policy exploration. By constraining optimization within these regions, it enables the reliable exploration of treatment strategies that outperform clinician behavior by leveraging the full patient state history, without drifting into unsupported state-action trajectories. Second, we introduce a safety cost constraint that encodes medical knowledge about physiological safety boundaries, providing domain-specific safeguards even in areas where training data might contain potentially unsafe interventions. Notably, we provide theoretical guarantees on safety and near-optimality: policies that satisfy these constraints remain in safe and reliable regions and achieve performance close to the best possible policy supported by the data.
- Abstract(参考訳): 医療シナリオにオフライン強化学習(RL)を適用すると、アウト・オブ・ディストリビューション(OOD)の問題が重大なリスクをもたらす。
保守的なQ-ラーニング(CQL)のような既存の手法は、OOD問題に対処しようとするが、その効果は不確実なアクションを抑えることで、アクションの選択を制限することで制限される。
この行動のみの正規化は、短期報酬を優先する臨床行為を模倣するが、下流状態の軌跡の規制に失敗し、改善された長期治療戦略の発見を制限する。
そこで我々は, モデルベースオフライン RL フレームワークである textit{Offline Guarded Safe Reinforcement Learning} (\mathsf{OGSRL}$) を提案する。
$\mathsf{OGSRL}$は、信頼性と安全性でポリシーを改善するための新しい二重制約機構を導入する。
第一に、安全な政策探索のための臨床的に検証された地域を特定するために、OODガーディアンが設置されている。
これらの領域内での最適化を制約することにより、患者状態の完全な履歴を活用することで、患者の行動に勝る治療戦略の信頼性の高い探索が可能になる。
第2に,生理的安全境界に関する医療知識を符号化する安全コスト制約を導入し,トレーニングデータに潜在的に安全でない介入を含む可能性のある領域においても,ドメイン固有の安全ガードを提供する。
これらの制約を満たす政策は、安全で信頼性の高い領域に留まり、データによって支持される最高のポリシーに近いパフォーマンスを達成する。
関連論文リスト
- Probabilistic Shielding for Safe Reinforcement Learning [51.35559820893218]
現実のシナリオでは、強化学習(RL)エージェントはトレーニング時間を含む安全な振る舞いをしなければならない。
我々は,Safe RLの厳密な保証を享受する,スケーラブルな新しい手法を提案する。
当社のアプローチは、トレーニングやテスト時にエージェントが安全であることを保証する厳格な公式な安全保証を提供する。
論文 参考訳(メタデータ) (2025-03-09T17:54:33Z) - Latent Safety-Constrained Policy Approach for Safe Offline Reinforcement Learning [7.888219789657414]
安全オフライン強化学習(RL)において、安全制約を厳格に遵守しつつ累積報酬を最大化する政策を開発することが目的である。
本稿では, 条件付き変分オートエンコーダを用いて, 保守的に安全な政策を学習することから始まる新しいアプローチを用いて, この問題に対処する。
我々は、これを制約付き逆戻り最大化問題とみなし、この政策は、推定された潜伏安全性の制約に従い、報酬を最適化することを目的としている。
論文 参考訳(メタデータ) (2024-12-11T22:00:07Z) - Embedding Safety into RL: A New Take on Trust Region Methods [1.5733417396701983]
我々は,信頼領域が安全な政策のみを含むことを保証するために,政策空間を再設定する制約付きトラスト地域政策最適化(C-TRPO)を導入する。
実験により、C-TRPOは競合リターンを維持しながら制約違反を低減することが示された。
論文 参考訳(メタデータ) (2024-11-05T09:55:50Z) - Pruning the Way to Reliable Policies: A Multi-Objective Deep Q-Learning Approach to Critical Care [46.2482873419289]
我々は、より信頼性の高いクリティカルケアポリシーを得るための深いQ-ラーニングアプローチを導入する。
本手法を,集中治療室のシミュレーション環境と実際の健康記録を用いて,オフライン・オフ・セッティングで評価した。
論文 参考訳(メタデータ) (2023-06-13T18:02:57Z) - Deep Offline Reinforcement Learning for Real-world Treatment
Optimization Applications [3.770564448216192]
オフラインRLトレーニングにおける動作不均衡に対処するための,実践的かつ理論的に基礎的な遷移サンプリング手法を提案する。
糖尿病と敗血症治療最適化のための2つの現実的課題について広範な実験を行った。
本提案手法は, 様々な原則および臨床関連指標を用いて, 期待される健康影響を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2023-02-15T09:30:57Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。