論文の概要: Contextualized Policy Recovery: Modeling and Interpreting Medical Decisions with Adaptive Imitation Learning
- arxiv url: http://arxiv.org/abs/2310.07918v4
- Date: Tue, 7 May 2024 21:40:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-09 19:10:37.552986
- Title: Contextualized Policy Recovery: Modeling and Interpreting Medical Decisions with Adaptive Imitation Learning
- Title(参考訳): 文脈化政策回復:適応的模倣学習による医学的決定のモデル化と解釈
- Authors: Jannik Deuschel, Caleb N. Ellington, Yingtao Luo, Benjamin J. Lengerich, Pascal Friederich, Eric P. Xing,
- Abstract要約: 解釈可能な政策学習は、観察された行動から無知な決定ポリシーを推定しようとする。
既存のアプローチは、基本的な決定プロセスを普遍的なポリシーとして表現するため、このトレードオフによって負担される。
我々は,複雑な意思決定プロセスのモデリング問題をマルチタスク学習問題として再構成する,文脈対応型政策回復(CPR)を開発する。
- 参考スコア(独自算出の注目度): 39.093299601701474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interpretable policy learning seeks to estimate intelligible decision policies from observed actions; however, existing models force a tradeoff between accuracy and interpretability, limiting data-driven interpretations of human decision-making processes. Fundamentally, existing approaches are burdened by this tradeoff because they represent the underlying decision process as a universal policy, when in fact human decisions are dynamic and can change drastically under different contexts. Thus, we develop Contextualized Policy Recovery (CPR), which re-frames the problem of modeling complex decision processes as a multi-task learning problem, where each context poses a unique task and complex decision policies can be constructed piece-wise from many simple context-specific policies. CPR models each context-specific policy as a linear map, and generates new policy models $\textit{on-demand}$ as contexts are updated with new observations. We provide two flavors of the CPR framework: one focusing on exact local interpretability, and one retaining full global interpretability. We assess CPR through studies on simulated and real data, achieving state-of-the-art performance on predicting antibiotic prescription in intensive care units ($+22\%$ AUROC vs. previous SOTA) and predicting MRI prescription for Alzheimer's patients ($+7.7\%$ AUROC vs. previous SOTA). With this improvement, CPR closes the accuracy gap between interpretable and black-box methods, allowing high-resolution exploration and analysis of context-specific decision models.
- Abstract(参考訳): 解釈可能な政策学習は、観察された行動から無知な決定ポリシーを推定しようとするが、既存のモデルは正確性と解釈可能性の間のトレードオフを強制し、人間の意思決定プロセスに関するデータ駆動の解釈を制限する。
基本的に、既存のアプローチは、基本的な決定プロセスが普遍的なポリシーとして表現されているため、このトレードオフによって負担を受けます。
そこで我々は,複雑な意思決定プロセスのモデル化という問題をマルチタスク学習問題として再設計し,各コンテキストが一意なタスクを呈し,複雑な意思決定ポリシーを多くの単純なコンテキスト特異的なポリシーから断片的に構築できるコンテキスト適応型政策回復(CPR)を開発した。
CPRは、コンテキスト固有のポリシーを線形マップとしてモデル化し、コンテキストが新しい観測で更新されるにつれて、新しいポリシーモデル$\textit{on-demand}$を生成する。
我々はCPRフレームワークの2つのフレーバーを提供する。1つは正確な局所的解釈可能性に焦点を当て、もう1つは完全なグローバルな解釈可能性を維持している。
我々は、シミュレーションおよび実データの研究を通じてCPRを評価し、集中治療室での抗生物質処方(+22 %=AUROC vs. 以前のSOTA)の予測とアルツハイマー病患者のMRI処方(+7.7 %=AUROC vs. 以前のSOTA)の予測において最先端のパフォーマンスを達成する。
この改良により、CPRは解釈可能なメソッドとブラックボックスメソッドの精度ギャップを埋め、コンテキスト固有の決定モデルの高精細な探索と分析を可能にする。
関連論文リスト
- From Explainability to Interpretability: Interpretable Policies in Reinforcement Learning Via Model Explanation [2.08099858257632]
本稿では,複雑な深いRLポリシーを透過的な表現に変換するためのモデルに依存しない新しいアプローチを提案する。
提案手法を既存の3つの深部RLアルゴリズムを用いて評価し,その性能を2つの古典的制御環境で検証した。
論文 参考訳(メタデータ) (2025-01-16T22:11:03Z) - Constrained Reinforcement Learning with Average Reward Objective: Model-Based and Model-Free Algorithms [34.593772931446125]
モノグラフは、平均報酬決定過程(MDPs)の文脈内で制約された様々なモデルベースおよびモデルフリーアプローチの探索に焦点を当てている
このアルゴリズムは制約付きMDPの解法として検討されている。
論文 参考訳(メタデータ) (2024-06-17T12:46:02Z) - Explaining by Imitating: Understanding Decisions by Interpretable Policy
Learning [72.80902932543474]
観察されたデータから人間の行動を理解することは、意思決定における透明性と説明責任にとって重要である。
意思決定者の方針をモデル化することが困難である医療などの現実的な設定を考えてみましょう。
本稿では, 設計による透明性の向上, 部分観測可能性の確保, 完全にオフラインで動作可能なデータ駆動型意思決定行動の表現を提案する。
論文 参考訳(メタデータ) (2023-10-28T13:06:14Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - POETREE: Interpretable Policy Learning with Adaptive Decision Trees [78.6363825307044]
POETREEは、ポリシー学習を解釈するための新しいフレームワークである。
患者の観察と医療史に基づいて、医師の行動を決定する確率的ツリーポリシーを構築する。
これは、リアルおよび合成医療データセットの最先端を上回ります。
論文 参考訳(メタデータ) (2022-03-15T16:50:52Z) - Reinforcement Learning with Heterogeneous Data: Estimation and Inference [84.72174994749305]
人口の不均一性に関する逐次的決定問題に対処するために,K-ヘテロ・マルコフ決定過程(K-ヘテロ・MDP)を導入する。
本稿では、ある政策の価値を推定するための自己クラスタ化政策評価(ACPE)と、ある政策クラスにおける最適な政策を推定するための自己クラスタ化政策イテレーション(ACPI)を提案する。
理論的な知見を裏付けるシミュレーションを行い,MIMIC-III標準データセットの実証的研究を行った。
論文 参考訳(メタデータ) (2022-01-31T20:58:47Z) - Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。
動的パーソナライズされた価格設定などの問題の因果構造を形式化する。
本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文 参考訳(メタデータ) (2021-10-19T16:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。