論文の概要: Hybrid Adaptive Conformal Offline Reinforcement Learning for Fair Population Health Management
- arxiv url: http://arxiv.org/abs/2509.09772v1
- Date: Thu, 11 Sep 2025 18:09:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.88641
- Title: Hybrid Adaptive Conformal Offline Reinforcement Learning for Fair Population Health Management
- Title(参考訳): 健康管理のためのハイブリッド適応型コンフォーマルオフライン強化学習
- Authors: Sanjay Basu, Sadiq Y. Patel, Parth Sheth, Bhairavi Muralidharan, Namrata Elamaran, Aakriti Kinra, Rajaie Batniji,
- Abstract要約: メディケイド人口の健康管理プログラムは、縦断的アウトリーチとサービスを調整する。
本稿では、リスクキャリブレーションを優先最適化から分離し、保守的な行動レコメンデーションを生成するハイブリッド適応整形オフライン強化学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.5635627702544692
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Population health management programs for Medicaid populations coordinate longitudinal outreach and services (e.g., benefits navigation, behavioral health, social needs support, and clinical scheduling) and must be safe, fair, and auditable. We present a Hybrid Adaptive Conformal Offline Reinforcement Learning (HACO) framework that separates risk calibration from preference optimization to generate conservative action recommendations at scale. In our setting, each step involves choosing among common coordination actions (e.g., which member to contact, by which modality, and whether to route to a specialized service) while controlling the near-term risk of adverse utilization events (e.g., unplanned emergency department visits or hospitalizations). Using a de-identified operational dataset from Waymark comprising 2.77 million sequential decisions across 168,126 patients, HACO (i) trains a lightweight risk model for adverse events, (ii) derives a conformal threshold to mask unsafe actions at a target risk level, and (iii) learns a preference policy on the resulting safe subset. We evaluate policies with a version-agnostic fitted Q evaluation (FQE) on stratified subsets and audit subgroup performance across age, sex, and race. HACO achieves strong risk discrimination (AUC ~0.81) with a calibrated threshold ( {\tau} ~0.038 at {\alpha} = 0.10), while maintaining high safe coverage. Subgroup analyses reveal systematic differences in estimated value across demographics, underscoring the importance of fairness auditing. Our results show that conformal risk gating integrates cleanly with offline RL to deliver conservative, auditable decision support for population health management teams.
- Abstract(参考訳): メディケイドの人口健康管理プログラムは、縦断的アウトリーチとサービス(例えば、ナビゲーション、行動保健、社会的ニーズ支援、臨床スケジュールなど)を調整し、安全で公平で監査可能でなければならない。
本稿では、リスクキャリブレーションを優先最適化から切り離し、大規模に保守的な行動レコメンデーションを生成するハイブリッド適応整形オフライン強化学習(HACO)フレームワークを提案する。
この設定では、各ステップは、共通調整行動(例えば、どのメンバーと接触するか、どのモダリティ、特定のサービスへのルートを決めるか)の中から、悪用イベント(例えば、未計画の救急部門訪問や入院)の短期的リスクを制御しながら、選択する。
168,126人の患者を対象にした277万のシーケンシャルな意思決定を含む、Waymarkから特定されていない運用データセットを用いたHACO
二 悪事の軽度リスクモデルを訓練すること。
二 標的リスクレベルでの安全でない行為を隠蔽するための適合しきい値を導出し、
(iii) 結果の安全なサブセットに関する優先ポリシーを学習する。
階層化されたサブセットに対するバージョン非適合Q評価(FQE)による政策評価と,年齢,性別,人種による監査サブグループパフォーマンスの評価を行った。
HACOは校正しきい値 ( {\tau} ~0.038 at {\alpha} = 0.10) で強いリスク差別(AUC ~0.81)を達成する。
サブグループ分析は、人口統計学における推定値の体系的差異を明らかにし、公正度監査の重要性を強調している。
以上の結果から, コンフォメーションリスクゲーティングがオフラインRLときれいに統合され, 人口健康管理チームに対する保守的で監査可能な意思決定支援が実現された。
関連論文リスト
- Feasibility-Guided Fair Adaptive Offline Reinforcement Learning for Medicaid Care Management [1.5635627702544692]
FG-FARL(Fasibility-Guided Fair Adaptive Reinforcement Learning)を紹介する。
FG-FARLは、保護されたサブグループ間で選択された公正目標(カバーまたは害)を等化しながら、グループごとの安全閾値を校正し、害を軽減する。
論文 参考訳(メタデータ) (2025-09-11T17:50:06Z) - Conditional Conformal Risk Adaptation [9.559062601251464]
セグメンテーションタスクの条件付きリスク制御を大幅に改善する適応予測セットを作成するための新しいスコア関数を開発する。
画素単位での包含推定の信頼性を高めるための特殊確率校正フレームワークを提案する。
ポリープセグメンテーション実験により, 3つの手法が有意な限界リスク制御を提供し, より一貫した条件リスク制御を実現することを示した。
論文 参考訳(メタデータ) (2025-04-10T10:01:06Z) - Towards Regulatory-Confirmed Adaptive Clinical Trials: Machine Learning Opportunities and Solutions [59.28853595868749]
本研究は,全人口と低給付人口の規制制約と治療方針値を統合した将来の臨床試験の新たな2つの目的を紹介する。
我々は、第III相臨床試験を設計するための新しい枠組みであるRFAN(Randomize First Augment Next)を定式化する。
我々のフレームワークは、標準的なランダム化コンポーネントと適応コンポーネントから構成されており、臨床試験中に患者を効率よく安全に獲得し、患者を治療アームに割り当てることを目的としている。
論文 参考訳(メタデータ) (2025-03-12T10:17:54Z) - Distribution-Free Uncertainty Quantification in Mechanical Ventilation Treatment: A Conformal Deep Q-Learning Framework [2.5070297884580874]
本研究では,集中治療室における機械的換気を最適化するための,分布自由な共形深度Q-ラーニング手法であるConformalDQNを紹介する。
我々はMIMIC-IVデータベースからICU患者記録を用いてモデルを訓練・評価した。
論文 参考訳(メタデータ) (2024-12-17T06:55:20Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Deep Reinforcement Learning for Efficient and Fair Allocation of Health Care Resources [47.57108369791273]
医療資源の枯渇は、レーションの避けられない結果をもたらす可能性がある。
医療資源割り当てプロトコルの普遍的な標準は存在しない。
本稿では,患者の疾患進行と患者間の相互作用効果を統合するためのトランスフォーマーベースのディープQネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-15T17:28:06Z) - Optimal and Fair Encouragement Policy Evaluation and Learning [11.712023983596914]
本研究は, 陽性の潜在的な違反を含む最適治療規則の因果同定とロバストな評価について検討した。
一般制約下でのパラメタライズされたポリシークラスを解くための2段階のアルゴリズムを開発し、分散感応的後悔境界を求める。
本研究は, SNAP給付のリマインダーデータ, 保険申請の無作為化促進, および電子監視による事前管理リリースに基づく3つのケーススタディである。
論文 参考訳(メタデータ) (2023-09-12T20:45:30Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - Reinforcement Learning with Heterogeneous Data: Estimation and Inference [84.72174994749305]
人口の不均一性に関する逐次的決定問題に対処するために,K-ヘテロ・マルコフ決定過程(K-ヘテロ・MDP)を導入する。
本稿では、ある政策の価値を推定するための自己クラスタ化政策評価(ACPE)と、ある政策クラスにおける最適な政策を推定するための自己クラスタ化政策イテレーション(ACPI)を提案する。
理論的な知見を裏付けるシミュレーションを行い,MIMIC-III標準データセットの実証的研究を行った。
論文 参考訳(メタデータ) (2022-01-31T20:58:47Z) - Post-Contextual-Bandit Inference [57.88785630755165]
コンテキストバンディットアルゴリズムは、電子商取引、医療、政策立案における非適応的なA/Bテストを置き換える傾向にある。
研究参加者の成果を改善することもでき、良い方針や最良の政策を特定できる可能性を高めることもできる。
研究の終盤における新規介入の信頼性推論を支援するため, 平均治療効果, サブグループ効果, あるいは新政策の価値について, 有効な信頼区間を構築したい。
論文 参考訳(メタデータ) (2021-06-01T12:01:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。