論文の概要: The hidden risks of temporal resampling in clinical reinforcement learning
- arxiv url: http://arxiv.org/abs/2602.06603v1
- Date: Fri, 06 Feb 2026 11:02:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.366349
- Title: The hidden risks of temporal resampling in clinical reinforcement learning
- Title(参考訳): 臨床強化学習における時間的再サンプリングの隠れリスク
- Authors: Thomas Frost, Hrisheekesh Vaidya, Steve Harris,
- Abstract要約: 実運用において,時間的再サンプリングはオフライン強化学習アルゴリズムの性能を著しく低下させることを示す。
本稿では,この障害を誘発するメカニズムとして,反現実軌道の生成,時間的期待の歪み,一般化誤差の複合化の3つを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (ORL) has shown potential for improving decision-making in healthcare. However, contemporary research typically aggregates patient data into fixed time intervals, simplifying their mapping to standard ORL frameworks. The impact of these temporal manipulations on model safety and efficacy remains poorly understood. In this work, using both a gridworld navigation task and the UVA/Padova clinical diabetes simulator, we demonstrate that temporal resampling significantly degrades the performance of offline reinforcement learning algorithms during live deployment. We propose three mechanisms that drive this failure: (i) the generation of counterfactual trajectories, (ii) the distortion of temporal expectations, and (iii) the compounding of generalisation errors. Crucially, we find that standard off-policy evaluation metrics can fail to detect these drops in performance. Our findings reveal a fundamental risk in current healthcare ORL pipelines and emphasise the need for methods that explicitly handle the irregular timing of clinical decision-making.
- Abstract(参考訳): オフライン強化学習(ORL)は、医療における意思決定を改善する可能性を示している。
しかし、現代の研究は通常、患者データを一定時間間隔に集約し、標準的なORLフレームワークへのマッピングを簡単にする。
これらの時間的操作がモデル安全性と有効性に与える影響は、まだよく分かっていない。
本研究では、グリッドワールドナビゲーションタスクとUVA/パドヴァ臨床糖尿病シミュレータの両方を用いて、時間的再サンプリングが実運用時のオフライン強化学習アルゴリズムの性能を著しく低下させることを示した。
この失敗を駆動する3つのメカニズムを提案します。
一 反実の軌跡の発生
(二)時間的期待の歪み、及び
(三)一般化誤差の複合化
重要なことに、標準的な非政治評価指標は、これらの性能低下を検出するのに失敗する可能性がある。
本研究は、現在の医療用ORLパイプラインの根本的なリスクを明らかにし、臨床意思決定の不規則なタイミングを明示的に扱う方法の必要性を強調した。
関連論文リスト
- SurvKAN: A Fully Parametric Survival Model Based on Kolmogorov-Arnold Networks [7.352227733654751]
Kolmogorov-Arnold Networks (KAN) に基づく完全パラメトリック・時間連続生存モデルであるSurvKANを紹介する。
SurvKANは時間を、ログハザード関数を直接予測するkanへの明示的な入力として扱い、完全な生存可能性に関するエンドツーエンドのトレーニングを可能にする。
論文 参考訳(メタデータ) (2026-02-02T14:49:14Z) - Overlap-weighted orthogonal meta-learner for treatment effect estimation over time [90.46786193198744]
ヘテロジニアス治療効果(HTE)を推定するための新しい重み付きメタラーナーを提案する。
我々のWO-Larnerは、ノイマン直交性(Neyman-orthogonality)の好ましい性質を持ち、ニュアンス関数の誤特定に対して堅牢である。
我々のWO-learnerは完全にモデルに依存しず、あらゆる機械学習モデルに適用可能であることを示す。
論文 参考訳(メタデータ) (2025-10-22T14:47:57Z) - DeltaSHAP: Explaining Prediction Evolutions in Online Patient Monitoring with Shapley Values [28.105209213061386]
本研究では,オンライン患者監視システムに特化して設計された新しい説明可能な人工知能(XAI)アルゴリズムであるDeltaSHAPを提案する。
時間的設定にシェープ値を適用することで、我々のアプローチは特徴連立効果を正確に捉えることができる。
さらに、実際に観察された特徴の組み合わせのみを用いて予測の変更を属性とし、時間に敏感な臨床応用のために効率的かつ実用的なものである。
論文 参考訳(メタデータ) (2025-07-03T06:08:07Z) - CTPD: Cross-Modal Temporal Pattern Discovery for Enhanced Multimodal Electronic Health Records Analysis [50.56875995511431]
マルチモーダルEHRデータから有意な時間的パターンを効率的に抽出するために,CTPD(Cross-Modal Temporal Pattern Discovery)フレームワークを導入する。
提案手法では,時間的セマンティックな埋め込みを生成するためにスロットアテンションを用いて改良された時間的パターン表現を提案する。
論文 参考訳(メタデータ) (2024-11-01T15:54:07Z) - Temporal-Difference Variational Continual Learning [77.92320830700797]
複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
提案手法は, 変分CL法より優れたカタストロフィックフォーミングを効果的に緩和する。
論文 参考訳(メタデータ) (2024-10-10T10:58:41Z) - Deep State-Space Generative Model For Correlated Time-to-Event Predictions [54.3637600983898]
そこで本研究では,様々な種類の臨床イベント間の相互作用を捉えるために,潜伏状態空間生成モデルを提案する。
また,死亡率と臓器不全の関連性について有意な知見が得られた。
論文 参考訳(メタデータ) (2024-07-28T02:42:36Z) - Ambiguous Dynamic Treatment Regimes: A Reinforcement Learning Approach [0.0]
動的処理レジーム(DTR)は、このプロセスの形式化のために広く研究されている。
最適な治療体制を効率的に学習するための強化学習法を開発した。
論文 参考訳(メタデータ) (2021-12-08T20:22:04Z) - SurvITE: Learning Heterogeneous Treatment Effects from Time-to-Event
Data [83.50281440043241]
時系列データから不均一な処理効果を推定する問題について検討する。
本稿では,バランス表現に基づく治療特異的ハザード推定のための新しいディープラーニング手法を提案する。
論文 参考訳(メタデータ) (2021-10-26T20:13:17Z) - CLOPS: Continual Learning of Physiological Signals [17.58391771585294]
我々はリプレイに基づく連続学習戦略であるCLOPSを提案する。
我々は,CLOPSが最先端の手法であるGEMとMIRより優れていることを示す。
エンドツーエンドのトレーニング可能なパラメータは、タスクの難易度と類似度を定量化するために使用することができる。
論文 参考訳(メタデータ) (2020-04-20T19:09:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。