論文の概要: Contextualized Policy Recovery: Modeling and Interpreting Medical
Decisions with Adaptive Imitation Learning
- arxiv url: http://arxiv.org/abs/2310.07918v3
- Date: Fri, 1 Dec 2023 17:00:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 11:51:32.588433
- Title: Contextualized Policy Recovery: Modeling and Interpreting Medical
Decisions with Adaptive Imitation Learning
- Title(参考訳): 文脈化政策回復:適応的模倣学習による医学的決定のモデル化と解釈
- Authors: Jannik Deuschel, Caleb N. Ellington, Benjamin J. Lengerich, Yingtao
Luo, Pascal Friederich, Eric P. Xing
- Abstract要約: 解釈可能な政策学習は、観察された行動から無知な決定ポリシーを推定しようとする。
既存のモデルは、正確性と解釈可能性の間のトレードオフを強制することによって、不足する。
本稿では,複雑な意思決定プロセスのモデル化の問題を再検討する文脈的政策回復(CPR)を提案する。
- 参考スコア(独自算出の注目度): 41.42387876557317
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interpretable policy learning seeks to estimate intelligible decision
policies from observed actions; however, existing models fall short by forcing
a tradeoff between accuracy and interpretability. This tradeoff limits
data-driven interpretations of human decision-making process. e.g. to audit
medical decisions for biases and suboptimal practices, we require models of
decision processes which provide concise descriptions of complex behaviors.
Fundamentally, existing approaches are burdened by this tradeoff because they
represent the underlying decision process as a universal policy, when in fact
human decisions are dynamic and can change drastically with contextual
information. Thus, we propose Contextualized Policy Recovery (CPR), which
re-frames the problem of modeling complex decision processes as a multi-task
learning problem in which complex decision policies are comprised of
context-specific policies. CPR models each context-specific policy as a linear
observation-to-action mapping, and generates new decision models
$\textit{on-demand}$ as contexts are updated with new observations. CPR is
compatible with fully offline and partially observable decision environments,
and can be tailored to incorporate any recurrent black-box model or
interpretable decision model. We assess CPR through studies on simulated and
real data, achieving state-of-the-art performance on the canonical tasks of
predicting antibiotic prescription in intensive care units ($+22\%$ AUROC vs.
previous SOTA) and predicting MRI prescription for Alzheimer's patients
($+7.7\%$ AUROC vs. previous SOTA). With this improvement in predictive
performance, CPR closes the accuracy gap between interpretable and black-box
methods for policy learning, allowing high-resolution exploration and analysis
of context-specific decision models.
- Abstract(参考訳): 解釈可能な政策学習は、観察された行動から理解可能な決定方針を推定することを目指すが、既存のモデルは正確性と解釈可能性の間のトレードオフを強制することによって不足する。
このトレードオフは、人間の意思決定プロセスのデータ駆動解釈を制限する。
例えば、バイアスや準最適プラクティスの医学的決定を監査するには、複雑な振る舞いの簡潔な記述を提供する決定プロセスのモデルが必要です。
基本的に、既存のアプローチは、人間の決定が動的であり、文脈情報とともに劇的に変化する場合、基本的な決定プロセスが普遍的なポリシーとして表されるため、このトレードオフによって負担される。
そこで本研究では,複雑な意思決定過程を,複雑な意思決定方針がコンテキスト固有の方針から構成されるマルチタスク学習問題としてモデル化する,文脈化ポリシリカバリ(cpr)を提案する。
CPRは、コンテキスト固有のポリシーを線形観測対アクションマッピングとしてモデル化し、コンテキストが新しい観測で更新されるにつれて、新しい決定モデル$\textit{on-demand}$を生成する。
CPRは完全にオフラインで部分的に監視可能な決定環境と互換性があり、繰り返し発生するブラックボックスモデルや解釈可能な決定モデルを統合するように調整できる。
我々は、シミュレーションおよび実データの研究を通じてCPRを評価し、集中治療室における抗生物質処方の予測(+22\%=AUROC vs. 以前のSOTA)とアルツハイマー病患者のMRI処方の予測(+7.7\%=AUROC vs. 以前のSOTA)の正準的タスクにおける最先端のパフォーマンスを達成した。
この予測性能の改善により、CPRはポリシー学習のための解釈可能なメソッドとブラックボックスメソッドの精度ギャップを埋め、コンテキスト固有の決定モデルの高分解能な探索と分析を可能にする。
関連論文リスト
- Explaining by Imitating: Understanding Decisions by Interpretable Policy
Learning [72.80902932543474]
観察されたデータから人間の行動を理解することは、意思決定における透明性と説明責任にとって重要である。
意思決定者の方針をモデル化することが困難である医療などの現実的な設定を考えてみましょう。
本稿では, 設計による透明性の向上, 部分観測可能性の確保, 完全にオフラインで動作可能なデータ駆動型意思決定行動の表現を提案する。
論文 参考訳(メタデータ) (2023-10-28T13:06:14Z) - Decision-Dependent Distributionally Robust Markov Decision Process
Method in Dynamic Epidemic Control [4.644416582073023]
Susceptible-Exposed-Infectious-Recovered (SEIR) モデルは感染症の拡散を表すために広く用いられている。
本稿では,動的流行制御問題に対処するために,分布ロバストマルコフ決定プロセス(DRMDP)を提案する。
論文 参考訳(メタデータ) (2023-06-24T20:19:04Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - POETREE: Interpretable Policy Learning with Adaptive Decision Trees [78.6363825307044]
POETREEは、ポリシー学習を解釈するための新しいフレームワークである。
患者の観察と医療史に基づいて、医師の行動を決定する確率的ツリーポリシーを構築する。
これは、リアルおよび合成医療データセットの最先端を上回ります。
論文 参考訳(メタデータ) (2022-03-15T16:50:52Z) - Reinforcement Learning with Heterogeneous Data: Estimation and Inference [84.72174994749305]
人口の不均一性に関する逐次的決定問題に対処するために,K-ヘテロ・マルコフ決定過程(K-ヘテロ・MDP)を導入する。
本稿では、ある政策の価値を推定するための自己クラスタ化政策評価(ACPE)と、ある政策クラスにおける最適な政策を推定するための自己クラスタ化政策イテレーション(ACPI)を提案する。
理論的な知見を裏付けるシミュレーションを行い,MIMIC-III標準データセットの実証的研究を行った。
論文 参考訳(メタデータ) (2022-01-31T20:58:47Z) - An Offline Risk-aware Policy Selection Method for Bayesian Markov
Decision Processes [0.0]
Exploitation vs. Caution (EvC) はベイズ形式主義のモデル不確実性をエレガントに取り入れたパラダイムである。
我々は,多種多様なMDPクラスを提供する異なる離散的かつシンプルな環境において,最先端のアプローチでEvCを検証する。
テストシナリオでは、EvCは堅牢なポリシーを選択することができ、実践者にとって有用なツールとして際立っている。
論文 参考訳(メタデータ) (2021-05-27T20:12:20Z) - Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。
提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文 参考訳(メタデータ) (2020-12-23T15:09:28Z) - MPC-guided Imitation Learning of Neural Network Policies for the
Artificial Pancreas [7.019683407682642]
我々は、Imitation Learningを用いて神経ネットワークインスリンポリシーを合成するAP制御に新しいアプローチを導入する。
このようなポリシーは計算的に効率的であり、訓練時に完全な状態情報でMPCを計測することで、測定結果を最適な治療決定にマッピングすることができる。
特定の患者モデルの下で訓練されたコントロールポリシーは,患者コホートに対して容易に(モデルパラメータや外乱分布の観点から)一般化できることが示唆された。
論文 参考訳(メタデータ) (2020-03-03T01:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。