論文の概要: Test-Time Learning and Inference-Time Deliberation for Efficiency-First Offline Reinforcement Learning in Care Coordination and Population Health Management
- arxiv url: http://arxiv.org/abs/2509.16291v1
- Date: Fri, 19 Sep 2025 14:41:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.724255
- Title: Test-Time Learning and Inference-Time Deliberation for Efficiency-First Offline Reinforcement Learning in Care Coordination and Population Health Management
- Title(参考訳): ケアコーディネートと人口健康管理における効率性第一のオフライン強化学習のためのテスト時間学習と推論時間検討
- Authors: Sanjay Basu, Sadiq Y. Patel, Parth Sheth, Bhairavi Muralidharan, Namrata Elamaran, Aakriti Kinra, Rajaie Batniji,
- Abstract要約: ケアコーディネートと人口健康管理プログラムはメディケイドと安全ネットの人口に役立っている。
そこで本研究では,(i)局所的な地域キャリブレーションによるテスト時間学習と,(ii)小さなQアンサンブルによる推論時間の検討により,トレーニング済みのポリシーを強化する,軽量なオフライン強化学習(RL)手法を提案する。
- 参考スコア(独自算出の注目度): 1.5635627702544692
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Care coordination and population health management programs serve large Medicaid and safety-net populations and must be auditable, efficient, and adaptable. While clinical risk for outreach modalities is typically low, time and opportunity costs differ substantially across text, phone, video, and in-person visits. We propose a lightweight offline reinforcement learning (RL) approach that augments trained policies with (i) test-time learning via local neighborhood calibration, and (ii) inference-time deliberation via a small Q-ensemble that incorporates predictive uncertainty and time/effort cost. The method exposes transparent dials for neighborhood size and uncertainty/cost penalties and preserves an auditable training pipeline. Evaluated on a de-identified operational dataset, TTL+ITD achieves stable value estimates with predictable efficiency trade-offs and subgroup auditing.
- Abstract(参考訳): ケアコーディネートと人口健康管理プログラムはメディケイドと安全ネットの大規模な人口に役立ち、監査可能、効率的、適応可能でなければならない。
アウトリーチのリスクは通常低いが、時間と機会のコストはテキスト、電話、ビデオ、対人訪問で大きく異なる。
我々は、訓練されたポリシーを付加する軽量オフライン強化学習(RL)アプローチを提案する。
一 地域別校正による試験時間学習、及び
(II)予測の不確実性と時間/費用を組み込んだ小さなQアンサンブルによる推論時間の検討。
この方法は、近隣の規模と不確実性/コストのペナルティに対する透明なダイヤルを公開し、監査可能なトレーニングパイプラインを保持する。
TTL+ITDは、特定されていない運用データセットに基づいて、予測可能な効率トレードオフとサブグループ監査を備えた安定した評価値を達成する。
関連論文リスト
- Hybrid Adaptive Conformal Offline Reinforcement Learning for Fair Population Health Management [1.5635627702544692]
メディケイド人口の健康管理プログラムは、縦断的アウトリーチとサービスを調整する。
本稿では、リスクキャリブレーションを優先最適化から分離し、保守的な行動レコメンデーションを生成するハイブリッド適応整形オフライン強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-11T18:09:28Z) - Large Language Models and User Trust: Consequence of Self-Referential Learning Loop and the Deskilling of Healthcare Professionals [1.6574413179773761]
本稿では, LLMにおける臨床医の信頼と, 主に人間生成コンテンツからAI生成コンテンツへのデータソースの影響との関係について検討する。
主な懸念の1つは、LLMが学習のアウトプットにより依存するにつれて生じる潜在的なフィードバックループである。
調査から得られた重要なポイントは、ユーザの専門知識の重要な役割と、LCMのアウトプットを信頼し、検証するための差別化アプローチの必要性である。
論文 参考訳(メタデータ) (2024-03-15T04:04:45Z) - Pruning the Way to Reliable Policies: A Multi-Objective Deep Q-Learning Approach to Critical Care [46.2482873419289]
我々は、より信頼性の高いクリティカルケアポリシーを得るための深いQ-ラーニングアプローチを導入する。
本手法を,集中治療室のシミュレーション環境と実際の健康記録を用いて,オフライン・オフ・セッティングで評価した。
論文 参考訳(メタデータ) (2023-06-13T18:02:57Z) - U-PASS: an Uncertainty-guided deep learning Pipeline for Automated Sleep
Staging [61.6346401960268]
プロセスの各段階で不確実性推定を組み込んだ臨床応用に適した,U-PASSと呼ばれる機械学習パイプラインを提案する。
不確実性誘導型ディープラーニングパイプラインを睡眠ステージングの困難な問題に適用し、各ステージにおけるパフォーマンスを体系的に改善することを示す。
論文 参考訳(メタデータ) (2023-06-07T08:27:36Z) - Policy Optimization for Personalized Interventions in Behavioral Health [8.10897203067601]
デジタルプラットフォームを通じて提供される行動的健康介入は、健康結果を大幅に改善する可能性がある。
患者に対するパーソナライズされた介入を最適化して長期的効果を最大化する問題について検討した。
患者システムの状態空間を個別のレベルに分解するDecompPIをダブする新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-21T21:42:03Z) - Adapting to Continuous Covariate Shift via Online Density Ratio Estimation [64.8027122329609]
分散シフトへの対処は、現代の機械学習における中心的な課題の1つだ。
歴史的情報を適切に再利用するオンライン手法を提案する。
我々の密度比推定法は, ダイナミックなリセットバウンドを楽しむことにより, 良好に動作できることが証明された。
論文 参考訳(メタデータ) (2023-02-06T04:03:33Z) - Interpretable Off-Policy Evaluation in Reinforcement Learning by
Highlighting Influential Transitions [48.91284724066349]
強化学習におけるオフ政治評価は、医療や教育などの領域における将来の成果を改善するために観察データを使用する機会を提供する。
信頼区間のような従来の尺度は、ノイズ、限られたデータ、不確実性のために不十分である可能性がある。
我々は,人間専門家が政策評価評価評価の妥当性を分析できるように,ハイブリッドAIシステムとして機能する手法を開発した。
論文 参考訳(メタデータ) (2020-02-10T00:26:43Z) - Contextual Constrained Learning for Dose-Finding Clinical Trials [102.8283665750281]
C3T-Budget(C3T-Budget)は、予算と安全性の両方の制約の下での線量フィリングのための文脈制約付き臨床試験アルゴリズムである。
残りの予算、残業時間、各グループの特徴を考慮して患者を募集する。
論文 参考訳(メタデータ) (2020-01-08T11:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。