論文の概要: Identifying Decision Points for Safe and Interpretable Reinforcement
Learning in Hypotension Treatment
- arxiv url: http://arxiv.org/abs/2101.03309v1
- Date: Sat, 9 Jan 2021 07:15:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 10:08:51.019877
- Title: Identifying Decision Points for Safe and Interpretable Reinforcement
Learning in Hypotension Treatment
- Title(参考訳): 低血圧治療における安全かつ解釈可能な強化学習のための決定点の同定
- Authors: Kristine Zhang, Yuanheng Wang, Jianzhun Du, Brian Chu, Leo Anthony
Celi, Ryan Kindle, Finale Doshi-Velez
- Abstract要約: 連続軌道をいくつかの解釈可能な決定点に圧縮する新しい枠組みを開発する。
我々は,高血圧患者データセットのコホートからレコメンデーションを作成するためのアプローチを適用した。
- 参考スコア(独自算出の注目度): 24.010934215216142
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many batch RL health applications first discretize time into fixed intervals.
However, this discretization both loses resolution and forces a policy
computation at each (potentially fine) interval. In this work, we develop a
novel framework to compress continuous trajectories into a few, interpretable
decision points --places where the batch data support multiple alternatives. We
apply our approach to create recommendations from a cohort of hypotensive
patients dataset. Our reduced state space results in faster planning and allows
easy inspection by a clinical expert.
- Abstract(参考訳): 多くのバッチRLヘルスアプリケーションは、まず時間を一定間隔に区別する。
しかし、この離散化はどちらも分解能を失い、各(潜在的に細かい)間隔でポリシー計算を強制する。
本研究では,連続的トラジェクタを,バッチデータが複数の代替手段をサポートするような,解釈可能な決定ポイント --places に圧縮する,新たなフレームワークを開発した。
我々は,高血圧患者データセットのコホートからレコメンデーションを作成するためのアプローチを適用した。
我々の状態空間の縮小はより高速な計画をもたらし、臨床専門家による簡単な検査を可能にします。
関連論文リスト
- Finding Counterfactually Optimal Action Sequences in Continuous State
Spaces [22.84932480886562]
有限水平マルコフ決定過程を用いた離散的な行動と連続状態の列を記述する。
次に,環境のダイナミクスの連続性に基づく探索手法を開発する。
提案手法は実際は非常に効率的であり, 逐次意思決定タスクに興味深い洞察を与える可能性がある。
論文 参考訳(メタデータ) (2023-06-06T18:00:29Z) - Discrete-time Competing-Risks Regression with or without Penalization [0.18416014644193068]
競合イベントを用いた離散時間生存分析のための新しい推定手法を提案する。
PythonパッケージであるPyDTSは、提案されたメソッドに追加機能を適用するために利用できる。
論文 参考訳(メタデータ) (2023-03-02T11:57:10Z) - TCFimt: Temporal Counterfactual Forecasting from Individual Multiple
Treatment Perspective [50.675845725806724]
個別多面的治療の観点からの時間的対実予測の包括的枠組み(TCFimt)を提案する。
TCFimtは、選択と時間変化バイアスを軽減するためにSeq2seqフレームワークの逆タスクを構築し、比較学習ベースのブロックを設計し、混合処理効果を分離した主治療効果と因果相互作用に分解する。
提案手法は, 特定の治療法による今後の結果予測と, 最先端手法よりも最適な治療タイプとタイミングを選択する上で, 良好な性能を示す。
論文 参考訳(メタデータ) (2022-12-17T15:01:05Z) - Continuous-Time Modeling of Counterfactual Outcomes Using Neural
Controlled Differential Equations [84.42837346400151]
反現実的な結果を予測することは、パーソナライズされたヘルスケアをアンロックする可能性がある。
既存の因果推論アプローチでは、観察と治療決定の間の通常の離散時間間隔が考慮されている。
そこで本研究では,腫瘍増殖モデルに基づく制御可能なシミュレーション環境を提案する。
論文 参考訳(メタデータ) (2022-06-16T17:15:15Z) - Policy Learning for Optimal Individualized Dose Intervals [3.9801611649762263]
このような政策を推定する新しい手法を提案する。
推定された政策は一貫しており、そのリスクはルートnレートで最良クラスの政策に収束する。
論文 参考訳(メタデータ) (2022-02-24T17:59:20Z) - Optimal discharge of patients from intensive care via a data-driven
policy learning framework [58.720142291102135]
退院課題は、退院期間の短縮と退院決定後の退院や死亡のリスクとの不確実なトレードオフに対処することが重要である。
本研究は、このトレードオフを捉えるためのエンドツーエンドの汎用フレームワークを導入し、最適放電タイミング決定を推奨する。
データ駆動型アプローチは、患者の生理的状態を捉えた同種で離散的な状態空間表現を導出するために用いられる。
論文 参考訳(メタデータ) (2021-12-17T04:39:33Z) - Estimating Optimal Infinite Horizon Dynamic Treatment Regimes via
pT-Learning [2.0625936401496237]
モバイルヘルス(mHealth)技術の最近の進歩は、個人の健康状態を監視し、ジャスト・イン・タイムのパーソナライズされた介入を提供する効果的な方法を提供する。
mHealthテクノロジーの実用化は、最適な動的治療体制を学習する上で、既存の方法論に固有の課題を提起する。
本稿では,決定論的とスパース政策モデルの間で適応的に調整された最適条件を推定する近時学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T18:38:22Z) - An Investigation of Replay-based Approaches for Continual Learning [79.0660895390689]
連続学習(CL)は機械学習(ML)の大きな課題であり、破滅的忘れ(CF)を伴わずに連続的に複数のタスクを学習する能力を記述する。
いくつかの解クラスが提案されており、その単純さと堅牢性から、いわゆるリプレイベースのアプローチは非常に有望であるように思われる。
連続学習におけるリプレイに基づくアプローチを実証的に検討し,応用の可能性を評価する。
論文 参考訳(メタデータ) (2021-08-15T15:05:02Z) - Batched Neural Bandits [107.5072688105936]
BatchNeuralUCBはニューラルネットワークと楽観性を組み合わせ、探索と探索のトレードオフに対処する。
BatchNeuralUCBは、完全なシーケンシャルバージョンと同じ後悔を達成しつつ、ポリシー更新の数を大幅に減らしています。
論文 参考訳(メタデータ) (2021-02-25T17:36:44Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z) - Multicategory Angle-based Learning for Estimating Optimal Dynamic
Treatment Regimes with Censored Data [12.499787110182632]
最適な治療体制(DTR)は、長期的な利益を最大化するための一連の決定規則から構成される。
本稿では,マルチカテゴリ処理フレームワークを用いて,最適DTRをターゲットとした新しい角度ベースアプローチを提案する。
本稿では,条件付き生存関数の最大化の観点から,提案手法が競合手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-01-14T05:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。