論文の概要: Finding Counterfactually Optimal Action Sequences in Continuous State
Spaces
- arxiv url: http://arxiv.org/abs/2306.03929v1
- Date: Tue, 6 Jun 2023 18:00:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 17:48:34.475268
- Title: Finding Counterfactually Optimal Action Sequences in Continuous State
Spaces
- Title(参考訳): 連続状態空間における反則最適作用列の探索
- Authors: Stratis Tsirtsis, Manuel Gomez-Rodriguez
- Abstract要約: 有限地平線決定過程を用いて離散的な行動と連続状態の列を定式化する。
次に,環境力学の連続性に基づくアルゴリズムを開発する。
実際の臨床データを用いた実験から,本手法は実効性が高いことが示された。
- 参考スコア(独自算出の注目度): 16.980621769406923
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans performing tasks that involve taking a series of multiple dependent
actions over time often learn from experience by reflecting on specific cases
and points in time, where different actions could have led to significantly
better outcomes. While recent machine learning methods to retrospectively
analyze sequential decision making processes promise to aid decision makers in
identifying such cases, they have focused on environments with finitely many
discrete states. However, in many practical applications, the state of the
environment is inherently continuous in nature. In this paper, we aim to fill
this gap. We start by formally characterizing a sequence of discrete actions
and continuous states using finite horizon Markov decision processes and a
broad class of bijective structural causal models. Building upon this
characterization, we formalize the problem of finding counterfactually optimal
action sequences and show that, in general, we cannot expect to solve it in
polynomial time. Then, we develop a search method based on the $A^*$ algorithm
that, under a natural form of Lipschitz continuity of the environment's
dynamics, is guaranteed to return the optimal solution to the problem.
Experiments on real clinical data show that our method is very efficient in
practice, and it has the potential to offer interesting insights for sequential
decision making tasks.
- Abstract(参考訳): 一連の複数の依存するアクションを時間とともに行うタスクを実行する人間は、特定のケースやポイントを時間内に反映することで経験から学ぶことが多い。
最近の機械学習手法では、意思決定プロセスは意思決定者を支援することを約束するが、それらは有限個の離散状態を持つ環境に焦点を当てている。
しかし、多くの応用において、環境の状態は本質的に連続的である。
本稿では,このギャップを埋めることを目的とする。
まず,有限ホライズンマルコフ決定過程と多岐にわたる単射構造因果モデルを用いて,離散作用と連続状態の列を形式的に特徴付ける。
この特徴付けに基づいて, 反事実的最適作用列を求める問題を定式化し, 一般に多項式時間で解くことはできないことを示す。
そこで,本研究では,環境力学のリプシッツ連続性の自然な形の下で最適解を返すことを保証した,$A^*$アルゴリズムに基づく探索手法を開発した。
実際の臨床データを用いた実験から,本手法は実際は非常に効率的であり,シーケンシャルな意思決定タスクに興味深い洞察を与える可能性が示唆された。
関連論文リスト
- Anomaly Detection via Learning-Based Sequential Controlled Sensing [25.282033825977827]
本稿では,学習に基づく制御センシングによるバイナリプロセス間の異常検出の問題に対処する。
異常を識別するために、意思決定エージェントは、各時点でプロセスのサブセットを観察することができる。
我々の目標は、どの過程を観察するかを動的に決定するシーケンシャルな選択ポリシーを設計することである。
論文 参考訳(メタデータ) (2023-11-30T07:49:33Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Robust Fitted-Q-Evaluation and Iteration under Sequentially Exogenous
Unobserved Confounders [16.193776814471768]
連続的に外生的でない共同設立者が存在する場合、ロバストな政策評価と政策最適化について検討する。
本研究は,敗血症治療のシミュレーションと実世界の縦断医療データの両方において,複雑性境界,洞察,有効性を示す。
論文 参考訳(メタデータ) (2023-02-01T18:40:53Z) - Task-agnostic Continual Hippocampus Segmentation for Smooth Population
Shifts [1.069533806668766]
本研究では,段階的な人口移動を伴うタスク非依存環境において,そのような手法がどのように機能するかを考察する。
本稿では,分布外検出と連続学習技術を組み合わせた総合的解法ODExを提案する。
論文 参考訳(メタデータ) (2022-08-05T14:46:00Z) - Continuous-Time Modeling of Counterfactual Outcomes Using Neural
Controlled Differential Equations [84.42837346400151]
反現実的な結果を予測することは、パーソナライズされたヘルスケアをアンロックする可能性がある。
既存の因果推論アプローチでは、観察と治療決定の間の通常の離散時間間隔が考慮されている。
そこで本研究では,腫瘍増殖モデルに基づく制御可能なシミュレーション環境を提案する。
論文 参考訳(メタデータ) (2022-06-16T17:15:15Z) - Optimal discharge of patients from intensive care via a data-driven
policy learning framework [58.720142291102135]
退院課題は、退院期間の短縮と退院決定後の退院や死亡のリスクとの不確実なトレードオフに対処することが重要である。
本研究は、このトレードオフを捉えるためのエンドツーエンドの汎用フレームワークを導入し、最適放電タイミング決定を推奨する。
データ駆動型アプローチは、患者の生理的状態を捉えた同種で離散的な状態空間表現を導出するために用いられる。
論文 参考訳(メタデータ) (2021-12-17T04:39:33Z) - Finding Regions of Heterogeneity in Decision-Making via Expected
Conditional Covariance [3.9775905909091804]
本稿では,意思決定者間不一致度の高いコンテキストのタイプを同定するアルゴリズムを提案する。
我々はこれを因果推論問題として定式化し、意思決定者の委任が決定に因果関係に大きな影響を及ぼす地域を求める。
われわれのアルゴリズムを実世界の医療データセットに適用し、既存の臨床知識と整合した変動を回復する。
論文 参考訳(メタデータ) (2021-10-27T15:20:12Z) - Counterfactual Explanations in Sequential Decision Making Under
Uncertainty [27.763369810430653]
本研究では, 逐次的意思決定プロセスにおいて, 対実的説明を求める手法を開発した。
我々の問題定式化において、反実的説明は、少なくとも k 個の作用において異なる作用の別の列を特定する。
提案アルゴリズムは,不確実性の下での意思決定の促進に有用な洞察を与えることができることを示す。
論文 参考訳(メタデータ) (2021-07-06T17:38:19Z) - The Medkit-Learn(ing) Environment: Medical Decision Modelling through
Simulation [81.72197368690031]
医用シーケンシャルな意思決定に特化して設計された新しいベンチマークスイートを提案する。
Medkit-Learn(ing) Environmentは、高忠実度合成医療データに簡単かつ簡単にアクセスできるPythonパッケージである。
論文 参考訳(メタデータ) (2021-06-08T10:38:09Z) - Resource Planning for Hospitals Under Special Consideration of the
COVID-19 Pandemic: Optimization and Sensitivity Analysis [87.31348761201716]
新型コロナウイルス(covid-19)パンデミックのような危機は、医療機関にとって深刻な課題となる。
BaBSim.Hospitalは離散イベントシミュレーションに基づく容量計画ツールである。
BaBSim.Hospitalを改善するためにこれらのパラメータを調査し最適化することを目指しています。
論文 参考訳(メタデータ) (2021-05-16T12:38:35Z) - Explaining Clinical Decision Support Systems in Medical Imaging using
Cycle-Consistent Activation Maximization [112.2628296775395]
ディープニューラルネットワークを用いた臨床意思決定支援は、着実に関心が高まりつつあるトピックとなっている。
臨床医は、その根底にある意思決定プロセスが不透明で理解しにくいため、この技術の採用をためらうことが多い。
そこで我々は,より小さなデータセットであっても,分類器決定の高品質な可視化を生成するCycleGANアクティベーションに基づく,新たな意思決定手法を提案する。
論文 参考訳(メタデータ) (2020-10-09T14:39:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。