論文の概要: Finding Counterfactually Optimal Action Sequences in Continuous State
Spaces
- arxiv url: http://arxiv.org/abs/2306.03929v2
- Date: Mon, 6 Nov 2023 11:01:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 22:18:24.903021
- Title: Finding Counterfactually Optimal Action Sequences in Continuous State
Spaces
- Title(参考訳): 連続状態空間における反則最適作用列の探索
- Authors: Stratis Tsirtsis, Manuel Gomez-Rodriguez
- Abstract要約: 有限水平マルコフ決定過程を用いた離散的な行動と連続状態の列を記述する。
次に,環境のダイナミクスの連続性に基づく探索手法を開発する。
提案手法は実際は非常に効率的であり, 逐次意思決定タスクに興味深い洞察を与える可能性がある。
- 参考スコア(独自算出の注目度): 22.84932480886562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Whenever a clinician reflects on the efficacy of a sequence of treatment
decisions for a patient, they may try to identify critical time steps where,
had they made different decisions, the patient's health would have improved.
While recent methods at the intersection of causal inference and reinforcement
learning promise to aid human experts, as the clinician above, to
retrospectively analyze sequential decision making processes, they have focused
on environments with finitely many discrete states. However, in many practical
applications, the state of the environment is inherently continuous in nature.
In this paper, we aim to fill this gap. We start by formally characterizing a
sequence of discrete actions and continuous states using finite horizon Markov
decision processes and a broad class of bijective structural causal models.
Building upon this characterization, we formalize the problem of finding
counterfactually optimal action sequences and show that, in general, we cannot
expect to solve it in polynomial time. Then, we develop a search method based
on the $A^*$ algorithm that, under a natural form of Lipschitz continuity of
the environment's dynamics, is guaranteed to return the optimal solution to the
problem. Experiments on real clinical data show that our method is very
efficient in practice, and it has the potential to offer interesting insights
for sequential decision making tasks.
- Abstract(参考訳): 臨床医が患者に対する一連の治療決定の有効性を熟考するたびに、異なる判断を下すと患者の健康が改善する致命的な時間ステップを特定しようとすることがある。
因果推論と強化学習の交差における最近の手法は、上記の臨床医と同様に、逐次的な意思決定プロセスを遡及的に分析する人間の専門家を助けることを約束しているが、彼らは有限個の独立した状態を持つ環境に焦点を当ててきた。
しかし、多くの応用において、環境の状態は本質的に連続的である。
本稿では,このギャップを埋めることを目的とする。
まず,有限ホライズンマルコフ決定過程と多岐にわたる単射構造因果モデルを用いて,離散作用と連続状態の列を形式的に特徴付ける。
この特徴付けに基づいて, 反事実的最適作用列を求める問題を定式化し, 一般に多項式時間で解くことはできないことを示す。
そこで,本研究では,環境力学のリプシッツ連続性の自然な形の下で最適解を返すことを保証した,$A^*$アルゴリズムに基づく探索手法を開発した。
実際の臨床データを用いた実験から,本手法は実際は非常に効率的であり,シーケンシャルな意思決定タスクに興味深い洞察を与える可能性が示唆された。
関連論文リスト
- Anomaly Detection via Learning-Based Sequential Controlled Sensing [25.282033825977827]
本稿では,学習に基づく制御センシングによるバイナリプロセス間の異常検出の問題に対処する。
異常を識別するために、意思決定エージェントは、各時点でプロセスのサブセットを観察することができる。
我々の目標は、どの過程を観察するかを動的に決定するシーケンシャルな選択ポリシーを設計することである。
論文 参考訳(メタデータ) (2023-11-30T07:49:33Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Robust Fitted-Q-Evaluation and Iteration under Sequentially Exogenous
Unobserved Confounders [16.193776814471768]
連続的に外生的でない共同設立者が存在する場合、ロバストな政策評価と政策最適化について検討する。
本研究は,敗血症治療のシミュレーションと実世界の縦断医療データの両方において,複雑性境界,洞察,有効性を示す。
論文 参考訳(メタデータ) (2023-02-01T18:40:53Z) - Task-agnostic Continual Hippocampus Segmentation for Smooth Population
Shifts [1.069533806668766]
本研究では,段階的な人口移動を伴うタスク非依存環境において,そのような手法がどのように機能するかを考察する。
本稿では,分布外検出と連続学習技術を組み合わせた総合的解法ODExを提案する。
論文 参考訳(メタデータ) (2022-08-05T14:46:00Z) - Continuous-Time Modeling of Counterfactual Outcomes Using Neural
Controlled Differential Equations [84.42837346400151]
反現実的な結果を予測することは、パーソナライズされたヘルスケアをアンロックする可能性がある。
既存の因果推論アプローチでは、観察と治療決定の間の通常の離散時間間隔が考慮されている。
そこで本研究では,腫瘍増殖モデルに基づく制御可能なシミュレーション環境を提案する。
論文 参考訳(メタデータ) (2022-06-16T17:15:15Z) - Optimal discharge of patients from intensive care via a data-driven
policy learning framework [58.720142291102135]
退院課題は、退院期間の短縮と退院決定後の退院や死亡のリスクとの不確実なトレードオフに対処することが重要である。
本研究は、このトレードオフを捉えるためのエンドツーエンドの汎用フレームワークを導入し、最適放電タイミング決定を推奨する。
データ駆動型アプローチは、患者の生理的状態を捉えた同種で離散的な状態空間表現を導出するために用いられる。
論文 参考訳(メタデータ) (2021-12-17T04:39:33Z) - Finding Regions of Heterogeneity in Decision-Making via Expected
Conditional Covariance [3.9775905909091804]
本稿では,意思決定者間不一致度の高いコンテキストのタイプを同定するアルゴリズムを提案する。
我々はこれを因果推論問題として定式化し、意思決定者の委任が決定に因果関係に大きな影響を及ぼす地域を求める。
われわれのアルゴリズムを実世界の医療データセットに適用し、既存の臨床知識と整合した変動を回復する。
論文 参考訳(メタデータ) (2021-10-27T15:20:12Z) - Counterfactual Explanations in Sequential Decision Making Under
Uncertainty [27.763369810430653]
本研究では, 逐次的意思決定プロセスにおいて, 対実的説明を求める手法を開発した。
我々の問題定式化において、反実的説明は、少なくとも k 個の作用において異なる作用の別の列を特定する。
提案アルゴリズムは,不確実性の下での意思決定の促進に有用な洞察を与えることができることを示す。
論文 参考訳(メタデータ) (2021-07-06T17:38:19Z) - The Medkit-Learn(ing) Environment: Medical Decision Modelling through
Simulation [81.72197368690031]
医用シーケンシャルな意思決定に特化して設計された新しいベンチマークスイートを提案する。
Medkit-Learn(ing) Environmentは、高忠実度合成医療データに簡単かつ簡単にアクセスできるPythonパッケージである。
論文 参考訳(メタデータ) (2021-06-08T10:38:09Z) - Resource Planning for Hospitals Under Special Consideration of the
COVID-19 Pandemic: Optimization and Sensitivity Analysis [87.31348761201716]
新型コロナウイルス(covid-19)パンデミックのような危機は、医療機関にとって深刻な課題となる。
BaBSim.Hospitalは離散イベントシミュレーションに基づく容量計画ツールである。
BaBSim.Hospitalを改善するためにこれらのパラメータを調査し最適化することを目指しています。
論文 参考訳(メタデータ) (2021-05-16T12:38:35Z) - Explaining Clinical Decision Support Systems in Medical Imaging using
Cycle-Consistent Activation Maximization [112.2628296775395]
ディープニューラルネットワークを用いた臨床意思決定支援は、着実に関心が高まりつつあるトピックとなっている。
臨床医は、その根底にある意思決定プロセスが不透明で理解しにくいため、この技術の採用をためらうことが多い。
そこで我々は,より小さなデータセットであっても,分類器決定の高品質な可視化を生成するCycleGANアクティベーションに基づく,新たな意思決定手法を提案する。
論文 参考訳(メタデータ) (2020-10-09T14:39:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。