論文の概要: Contextualized Policy Recovery: Modeling and Interpreting Medical
Decisions with Adaptive Imitation Learning
- arxiv url: http://arxiv.org/abs/2310.07918v3
- Date: Fri, 1 Dec 2023 17:00:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 11:51:32.588433
- Title: Contextualized Policy Recovery: Modeling and Interpreting Medical
Decisions with Adaptive Imitation Learning
- Title(参考訳): 文脈化政策回復:適応的模倣学習による医学的決定のモデル化と解釈
- Authors: Jannik Deuschel, Caleb N. Ellington, Benjamin J. Lengerich, Yingtao
Luo, Pascal Friederich, Eric P. Xing
- Abstract要約: 解釈可能な政策学習は、観察された行動から無知な決定ポリシーを推定しようとする。
既存のモデルは、正確性と解釈可能性の間のトレードオフを強制することによって、不足する。
本稿では,複雑な意思決定プロセスのモデル化の問題を再検討する文脈的政策回復(CPR)を提案する。
- 参考スコア(独自算出の注目度): 41.42387876557317
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interpretable policy learning seeks to estimate intelligible decision
policies from observed actions; however, existing models fall short by forcing
a tradeoff between accuracy and interpretability. This tradeoff limits
data-driven interpretations of human decision-making process. e.g. to audit
medical decisions for biases and suboptimal practices, we require models of
decision processes which provide concise descriptions of complex behaviors.
Fundamentally, existing approaches are burdened by this tradeoff because they
represent the underlying decision process as a universal policy, when in fact
human decisions are dynamic and can change drastically with contextual
information. Thus, we propose Contextualized Policy Recovery (CPR), which
re-frames the problem of modeling complex decision processes as a multi-task
learning problem in which complex decision policies are comprised of
context-specific policies. CPR models each context-specific policy as a linear
observation-to-action mapping, and generates new decision models
$\textit{on-demand}$ as contexts are updated with new observations. CPR is
compatible with fully offline and partially observable decision environments,
and can be tailored to incorporate any recurrent black-box model or
interpretable decision model. We assess CPR through studies on simulated and
real data, achieving state-of-the-art performance on the canonical tasks of
predicting antibiotic prescription in intensive care units ($+22\%$ AUROC vs.
previous SOTA) and predicting MRI prescription for Alzheimer's patients
($+7.7\%$ AUROC vs. previous SOTA). With this improvement in predictive
performance, CPR closes the accuracy gap between interpretable and black-box
methods for policy learning, allowing high-resolution exploration and analysis
of context-specific decision models.
- Abstract(参考訳): 解釈可能な政策学習は、観察された行動から理解可能な決定方針を推定することを目指すが、既存のモデルは正確性と解釈可能性の間のトレードオフを強制することによって不足する。
このトレードオフは、人間の意思決定プロセスのデータ駆動解釈を制限する。
例えば、バイアスや準最適プラクティスの医学的決定を監査するには、複雑な振る舞いの簡潔な記述を提供する決定プロセスのモデルが必要です。
基本的に、既存のアプローチは、人間の決定が動的であり、文脈情報とともに劇的に変化する場合、基本的な決定プロセスが普遍的なポリシーとして表されるため、このトレードオフによって負担される。
そこで本研究では,複雑な意思決定過程を,複雑な意思決定方針がコンテキスト固有の方針から構成されるマルチタスク学習問題としてモデル化する,文脈化ポリシリカバリ(cpr)を提案する。
CPRは、コンテキスト固有のポリシーを線形観測対アクションマッピングとしてモデル化し、コンテキストが新しい観測で更新されるにつれて、新しい決定モデル$\textit{on-demand}$を生成する。
CPRは完全にオフラインで部分的に監視可能な決定環境と互換性があり、繰り返し発生するブラックボックスモデルや解釈可能な決定モデルを統合するように調整できる。
我々は、シミュレーションおよび実データの研究を通じてCPRを評価し、集中治療室における抗生物質処方の予測(+22\%=AUROC vs. 以前のSOTA)とアルツハイマー病患者のMRI処方の予測(+7.7\%=AUROC vs. 以前のSOTA)の正準的タスクにおける最先端のパフォーマンスを達成した。
この予測性能の改善により、CPRはポリシー学習のための解釈可能なメソッドとブラックボックスメソッドの精度ギャップを埋め、コンテキスト固有の決定モデルの高分解能な探索と分析を可能にする。
関連論文リスト
- Constrained Reinforcement Learning with Average Reward Objective: Model-Based and Model-Free Algorithms [34.593772931446125]
モノグラフは、平均報酬決定過程(MDPs)の文脈内で制約された様々なモデルベースおよびモデルフリーアプローチの探索に焦点を当てている
このアルゴリズムは制約付きMDPの解法として検討されている。
論文 参考訳(メタデータ) (2024-06-17T12:46:02Z) - Explaining by Imitating: Understanding Decisions by Interpretable Policy
Learning [72.80902932543474]
観察されたデータから人間の行動を理解することは、意思決定における透明性と説明責任にとって重要である。
意思決定者の方針をモデル化することが困難である医療などの現実的な設定を考えてみましょう。
本稿では, 設計による透明性の向上, 部分観測可能性の確保, 完全にオフラインで動作可能なデータ駆動型意思決定行動の表現を提案する。
論文 参考訳(メタデータ) (2023-10-28T13:06:14Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - POETREE: Interpretable Policy Learning with Adaptive Decision Trees [78.6363825307044]
POETREEは、ポリシー学習を解釈するための新しいフレームワークである。
患者の観察と医療史に基づいて、医師の行動を決定する確率的ツリーポリシーを構築する。
これは、リアルおよび合成医療データセットの最先端を上回ります。
論文 参考訳(メタデータ) (2022-03-15T16:50:52Z) - Reinforcement Learning with Heterogeneous Data: Estimation and Inference [84.72174994749305]
人口の不均一性に関する逐次的決定問題に対処するために,K-ヘテロ・マルコフ決定過程(K-ヘテロ・MDP)を導入する。
本稿では、ある政策の価値を推定するための自己クラスタ化政策評価(ACPE)と、ある政策クラスにおける最適な政策を推定するための自己クラスタ化政策イテレーション(ACPI)を提案する。
理論的な知見を裏付けるシミュレーションを行い,MIMIC-III標準データセットの実証的研究を行った。
論文 参考訳(メタデータ) (2022-01-31T20:58:47Z) - Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。
動的パーソナライズされた価格設定などの問題の因果構造を形式化する。
本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文 参考訳(メタデータ) (2021-10-19T16:15:56Z) - Counterfactual Learning of Stochastic Policies with Continuous Actions:
from Models to Offline Evaluation [41.21447375318793]
コンテクストとアクションを融合したカーネルを組み込んだモデリング戦略を導入する。
対実学習の最適化の側面が重要であることを実証的に示す。
実世界のログシステムにおけるオフラインポリシーの評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-04-22T07:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。