論文の概要: Is Deep Reinforcement Learning Ready for Practical Applications in
Healthcare? A Sensitivity Analysis of Duel-DDQN for Hemodynamic Management in
Sepsis Patients
- arxiv url: http://arxiv.org/abs/2005.04301v2
- Date: Thu, 27 Aug 2020 14:54:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 11:58:39.621123
- Title: Is Deep Reinforcement Learning Ready for Practical Applications in
Healthcare? A Sensitivity Analysis of Duel-DDQN for Hemodynamic Management in
Sepsis Patients
- Title(参考訳): 深層強化学習は医療の実践的応用に適しているか?
敗血症患者の血行動態管理における Duel-DDQN の感度解析
- Authors: MingYu Lu and Zachary Shahn and Daby Sow and Finale Doshi-Velez and
Li-wei H. Lehman
- Abstract要約: ICU患者に対する血行動態安定化治療戦略に応用した最先端RLアルゴリズムの感度解析を行った。
入力機能,埋め込みモデルアーキテクチャ,時間離散化,報酬関数,ランダムシードに対する学習ポリシーの感度について検討する。
その結果,これらの設定が学習ポリシーに大きく影響し,RLエージェントの出力を解釈する際に注意が必要であることが示唆された。
- 参考スコア(独自算出の注目度): 25.71979754918741
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The potential of Reinforcement Learning (RL) has been demonstrated through
successful applications to games such as Go and Atari. However, while it is
straightforward to evaluate the performance of an RL algorithm in a game
setting by simply using it to play the game, evaluation is a major challenge in
clinical settings where it could be unsafe to follow RL policies in practice.
Thus, understanding sensitivity of RL policies to the host of decisions made
during implementation is an important step toward building the type of trust in
RL required for eventual clinical uptake. In this work, we perform a
sensitivity analysis on a state-of-the-art RL algorithm (Dueling Double Deep
Q-Networks)applied to hemodynamic stabilization treatment strategies for septic
patients in the ICU. We consider sensitivity of learned policies to input
features, embedding model architecture, time discretization, reward function,
and random seeds. We find that varying these settings can significantly impact
learned policies, which suggests a need for caution when interpreting RL agent
output.
- Abstract(参考訳): 強化学習(RL)の可能性は、GoやAtariといったゲームへの成功を通じて実証されてきた。
しかし,RL アルゴリズムをゲームプレイに使用することで,ゲーム環境におけるRL アルゴリズムの性能を評価することは容易であるが,実際に RL ポリシーに従うことのできない臨床環境においては,評価が大きな課題である。
したがって、RLポリシーを実践中に行う決定のホストに対する感受性を理解することは、最終的に臨床に必要とされるRLの信頼のタイプを構築するための重要なステップである。
本研究では,ICU患者に対する血行動態安定化治療戦略に適応した最先端RLアルゴリズム(Dueling Double Deep Q-Networks)の感度解析を行った。
入力機能,埋め込みモデルアーキテクチャ,時間離散化,報酬関数,ランダムシードに対する学習ポリシーの感度について検討する。
様々な設定が学習ポリシーに大きく影響し,RLエージェント出力の解釈に注意が必要であることが示唆された。
関連論文リスト
- OMG-RL:Offline Model-based Guided Reward Learning for Heparin Treatment [0.4998632546280975]
本研究は,臨床医の意図を反映した報酬関数の開発に焦点をあてる。
限られたデータから専門家の意図を含むパラメータ化された報酬関数を学習する。
このアプローチはヘパリン服薬問題だけでなく、一般のRLベースの薬物服薬タスクにも広く利用することができる。
論文 参考訳(メタデータ) (2024-09-20T07:51:37Z) - Is Value Learning Really the Main Bottleneck in Offline RL? [70.54708989409409]
ポリシー抽出アルゴリズムの選択はオフラインRLの性能とスケーラビリティに大きく影響することを示す。
本稿では,2つの簡易なテスト時ポリシー改善手法を提案し,これらの手法が性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-06-13T17:07:49Z) - Pruning the Way to Reliable Policies: A Multi-Objective Deep Q-Learning Approach to Critical Care [46.2482873419289]
我々は、より信頼性の高いクリティカルケアポリシーを得るための深いQ-ラーニングアプローチを導入する。
本手法を,集中治療室のシミュレーション環境と実際の健康記録を用いて,オフライン・オフ・セッティングで評価した。
論文 参考訳(メタデータ) (2023-06-13T18:02:57Z) - Decoupled Prioritized Resampling for Offline RL [120.49021589395005]
オフライン強化学習のためのオフライン優先体験再生(OPER)を提案する。
OPERは、高度に反転する遷移を優先するように設計された優先順位関数のクラスを備えており、トレーニング中により頻繁に訪問することができる。
優先順位関数のクラスは行動ポリシーの改善を誘導し、この改善されたポリシーに制約された場合、ポリシー制約付きオフラインRLアルゴリズムによりより良い解が得られる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-08T17:56:46Z) - Quasi-optimal Reinforcement Learning with Continuous Actions [8.17049210746654]
そこで我々は,非政治環境において容易に最適化できる,新しいEmphquasi-Optimal Learningアルゴリズムを開発した。
本アルゴリズムを網羅的なシミュレーション実験により評価し,オハイオ1型糖尿病データセットへの線量提案実例を適用した。
論文 参考訳(メタデータ) (2023-01-21T11:30:13Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation [78.17108227614928]
本研究では,水文ナビゲーションに着目した安全強化学習のためのベンチマーク環境を提案する。
価値に基づく政策段階の深層強化学習(DRL)について考察する。
また,学習したモデルの振る舞いを所望の特性の集合上で検証する検証戦略を提案する。
論文 参考訳(メタデータ) (2021-12-16T16:53:56Z) - pH-RL: A personalization architecture to bring reinforcement learning to
health practice [6.587485396428361]
本論文では、RLを健康に導くためのパーソナライゼーションのための一般的なRLアーキテクチャであるpH-RLを提案する。
オープンソースのRLアーキテクチャを実装し、メンタルヘルスのためのMoodBusterモバイルアプリケーションに統合します。
実験結果から, 開発方針は, わずか数日のデータを連続的に利用して適切な行動を選択できることが示唆された。
論文 参考訳(メタデータ) (2021-03-29T19:38:04Z) - Sample-Efficient Reinforcement Learning via Counterfactual-Based Data
Augmentation [15.451690870640295]
医療などのいくつかのシナリオでは、通常、各患者に利用可能なレコードはごくわずかであり、現在の強化学習アルゴリズムの適用を妨げる。
構造因果モデル(SCM)を利用して状態ダイナミクスをモデル化する,データ効率の高いRLアルゴリズムを提案する。
本研究は, 軽度条件下では反実結果が識別可能であり, 反実に基づく拡張データセット上のq学習が最適値関数に収束することを示す。
論文 参考訳(メタデータ) (2020-12-16T17:21:13Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。