Fugu-MT 論文翻訳(概要): Counterfactually Guided Off-policy Transfer in Clinical Settings

論文の概要: Counterfactually Guided Off-policy Transfer in Clinical Settings

arxiv url: http://arxiv.org/abs/2006.11654v3
Date: Wed, 16 Mar 2022 17:54:53 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-18 22:21:00.685040
Title: Counterfactually Guided Off-policy Transfer in Clinical Settings
Title（参考訳）: 臨床現場におけるオフ・ポリシー・トランスファー
Authors: Taylor W. Killian, Marzyeh Ghassemi, Shalmali Joshi
Abstract要約: 本稿では,基礎となる生成過程を因果メカニズムでモデル化し,非政治的移行の手法を提案する。観測不能なコンファウンディングの存在下で、データの空白にどのように対処するかを実証する。
参考スコア（独自算出の注目度）: 7.313613282363874
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Domain shift, encountered when using a trained model for a new patient population, creates significant challenges for sequential decision making in healthcare since the target domain may be both data-scarce and confounded. In this paper, we propose a method for off-policy transfer by modeling the underlying generative process with a causal mechanism. We use informative priors from the source domain to augment counterfactual trajectories in the target in a principled manner. We demonstrate how this addresses data-scarcity in the presence of unobserved confounding. The causal parametrization of our sampling procedure guarantees that counterfactual quantities can be estimated from scarce observational target data, maintaining intuitive stability properties. Policy learning in the target domain is further regularized via the source policy through KL-divergence. Through evaluation on a simulated sepsis treatment task, our counterfactual policy transfer procedure significantly improves the performance of a learned treatment policy when assumptions of "no-unobserved confounding" are relaxed.
Abstract（参考訳）: 新しい患者集団のためにトレーニングされたモデルを使用する際に遭遇するドメインシフトは、ターゲットドメインがデータスカースとコンストラクトの両方である可能性があるため、医療におけるシーケンシャルな意思決定に重大な課題を生じさせる。本稿では,その基盤となる生成過程を因果メカニズムでモデル化し,非政治的移行手法を提案する。我々は、ソースドメインからのインフォメーションプリミティブを使用して、原則的にターゲットの反事実的トラジェクタを補強する。我々は、観測されていないコンファウンディングの存在下で、どのようにしてデータscarcityに対処するかを示す。サンプリング手順の因果パラメトリゼーションにより,観測対象データから反事実量を推定でき,直感的な安定性が維持できる。対象領域における政策学習は、KL分割により、ソースポリシーを介してさらに規則化される。シミュレーションされたセプシス処理タスクの評価を通じて,非観測的共起」の仮定が緩和された場合,本手法は学習された治療方針の性能を著しく向上させる。

関連論文リスト

Pragmatic Policy Development via Interpretable Behavior Cloning [6.177449809243359]
本稿では,患者の行動方針の解釈可能なモデルを用いて,各患者の状態において最も頻繁に選択される行動から治療方針を導出する。このフレームワークによって導かれるポリシーは,オフラインのRLで得られるものに対して,解釈可能な代替手段を提供することで,現在の実践を上回り得ることを実証する。
論文参考訳（メタデータ） (2025-07-22T22:34:35Z)
LLM-based Agent Simulation for Maternal Health Interventions: Uncertainty Estimation and Decision-focused Evaluation [30.334268991701727]
エージェントに基づくシミュレーションは複雑な人間の行動のモデル化に不可欠である。従来のアプローチでは、広範なドメイン知識と大規模なデータセットが必要です。大規模言語モデル(LLM)は、幅広い世界の知識を活用することで、有望な代替手段を提供する。
論文参考訳（メタデータ） (2025-03-25T20:24:47Z)
Representation-based Reward Modeling for Efficient Safety Alignment of Large Language Model [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-13T06:40:34Z)
Estimating the treatment effect over time under general interference through deep learner integrated TMLE [7.2615408834692685]
DeepNetTMLE(DeepNetTMLE)は,ディープラーニングによる最大等量推定(TMLE)手法である。 DeepNetTMLEは、一般的な干渉の下で、時間によって変化する共同創設者のバイアスを軽減する。我々は,DeepNetTMLEが,反実推定においてより低いバイアスとより正確な信頼区間を実現することを示す。
論文参考訳（メタデータ） (2024-12-06T06:09:43Z)
Offline Bayesian Aleatoric and Epistemic Uncertainty Quantification and Posterior Value Optimisation in Finite-State MDPs [3.1139806580181006]
有限状態マルコフ決定過程(MDP)のオフライン使用例におけるベイズの不確かさを未知のダイナミクスで定量化することの課題に対処する。我々は標準ベイズ強化学習法を用いて,MDPパラメータの後方不確実性を捉える。次に、後続サンプル間の戻り分布の最初の2つのモーメントを解析的に計算し、全分散の法則を適用する。我々は,AIクリニック問題に適用することで,実世界の影響と計算能力のスケーラビリティを強調した。
論文参考訳（メタデータ） (2024-06-04T16:21:14Z)
Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文参考訳（メタデータ） (2023-10-24T01:00:01Z)
Pruning the Way to Reliable Policies: A Multi-Objective Deep Q-Learning Approach to Critical Care [46.2482873419289]
我々は、より信頼性の高いクリティカルケアポリシーを得るための深いQ-ラーニングアプローチを導入する。本手法を,集中治療室のシミュレーション環境と実際の健康記録を用いて,オフライン・オフ・セッティングで評価した。
論文参考訳（メタデータ） (2023-06-13T18:02:57Z)
Policy Optimization for Personalized Interventions in Behavioral Health [8.10897203067601]
デジタルプラットフォームを通じて提供される行動的健康介入は、健康結果を大幅に改善する可能性がある。患者に対するパーソナライズされた介入を最適化して長期的効果を最大化する問題について検討した。患者システムの状態空間を個別のレベルに分解するDecompPIをダブする新しい手法を提案する。
論文参考訳（メタデータ） (2023-03-21T21:42:03Z)
SCouT: Synthetic Counterfactuals via Spatiotemporal Transformers for Actionable Healthcare [6.431557011732579]
合成制御法は、ドナーユニットからユニットの対実的現実を推定する強力なデータ駆動手法のクラスを開拓した。中心となる技術は、ドナーの結果を結合して偽物を生成する、事前介入期間に適合した線形モデルである。提案手法は,介入の開始前における局所的時間的情報の利用を,事象列を推定する有望な方法として提案する。
論文参考訳（メタデータ） (2022-07-09T07:00:17Z)
Optimal discharge of patients from intensive care via a data-driven policy learning framework [58.720142291102135]
退院課題は、退院期間の短縮と退院決定後の退院や死亡のリスクとの不確実なトレードオフに対処することが重要である。本研究は、このトレードオフを捉えるためのエンドツーエンドの汎用フレームワークを導入し、最適放電タイミング決定を推奨する。データ駆動型アプローチは、患者の生理的状態を捉えた同種で離散的な状態空間表現を導出するために用いられる。
論文参考訳（メタデータ） (2021-12-17T04:39:33Z)
Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文参考訳（メタデータ） (2021-10-28T17:46:14Z)
Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文参考訳（メタデータ） (2021-06-22T17:58:46Z)
Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2020-11-08T23:16:19Z)
Optimizing Medical Treatment for Sepsis in Intensive Care: from Reinforcement Learning to Pre-Trial Evaluation [2.908482270923597]
本研究の目的は, 介入を最適化する強化学習(RL)が, 学習方針の治験に対する規制に適合する経路を遡及的に得る枠組みを確立することである。我々は,死の主な原因の一つであり,複雑で不透明な患者動態のため治療が困難である集中治療室の感染症に焦点を当てた。
論文参考訳（メタデータ） (2020-03-13T20:31:47Z)
Interpretable Off-Policy Evaluation in Reinforcement Learning by Highlighting Influential Transitions [48.91284724066349]
強化学習におけるオフ政治評価は、医療や教育などの領域における将来の成果を改善するために観察データを使用する機会を提供する。信頼区間のような従来の尺度は、ノイズ、限られたデータ、不確実性のために不十分である可能性がある。我々は,人間専門家が政策評価評価評価の妥当性を分析できるように,ハイブリッドAIシステムとして機能する手法を開発した。
論文参考訳（メタデータ） (2020-02-10T00:26:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。