論文の概要: MedGym:A Unified Continuous-Time Benchmark for Dynamic Medical Treatment Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.01028v1
- Date: Sun, 31 May 2026 05:36:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.087569
- Title: MedGym:A Unified Continuous-Time Benchmark for Dynamic Medical Treatment Reinforcement Learning
- Title(参考訳): MedGym:動的医療強化学習のための統合された連続時間ベンチマーク
- Authors: Yuepeng Wang, Ken Kawano, Yongqi Zhou, Yoshihiko Fujisawa, Richard Weiss, Akifumi Wachi, Katsuki Fujisawa, Ying Chen, Mehrshad Sadria, Xin Liu, Kyoung-Sook Kim, Xiao Hu, Sebastien Gros, Xun Shen,
- Abstract要約: 動的治療推奨のためのベンチマーク環境であるMedGymを紹介する。
MedGymは、持続時間フレームワークにおける経時的患者の進化をモデル化する。
物理インフォームドニューラルネットワークを用いて臨床データから医学RLベンチマークを構築する。
- 参考スコア(独自算出の注目度): 16.00709468365385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical treatment recommendation poses several challenges to reinforcement learning (RL): patient physiology evolves in continuous time, measurements and interventions are performed at irregular intervals, and treatment effects vary substantially across individuals. Existing RL formulations and simulated environments, however, are based on discrete-time MDP or POMDP abstractions with fixed or pre-specified decision intervals. Thus, it remains difficult to evaluate whether RL methods can handle time-interval-dependent disease progression, personalized treatment response, and safety between consecutive measurement points. To address this gap, we introduce MedGym, a benchmark environment for dynamic treatment recommendation. MedGym models longitudinal patient evolution in a continuous-time framework and constructs a configurable medical RL benchmark from clinical data by using Physics-Informed Neural Networks. The resulting benchmark supports both offline and online RL, and enables direct comparison between discrete-time and continuous-time methods under irregular treatment timing and patient-specific dynamics. Besides, MedGym supports evaluation from clinically important perspectives, including personalization, trajectory-level safety, and the performance gap between model-based offline learning and online deployment. By providing a standardized and configurable benchmark for continuous-time dynamic treatment, MedGym aims to facilitate more realistic and informative evaluation of medical RL methods.
- Abstract(参考訳): 患者生理学は連続的に進化し、測定と介入は不規則な間隔で行われ、治療効果は個人によって大きく異なる。
しかし、既存のRLの定式化とシミュレーション環境は、固定または予め指定された決定間隔を持つ離散時間MDPまたはPOMDPの抽象化に基づいている。
したがって、RL法が時間間隔依存性疾患の進行、パーソナライズされた治療反応、連続測定点間の安全性を扱えるかどうかを評価することは依然として困難である。
このギャップに対処するために、動的治療推奨のためのベンチマーク環境であるMedGymを紹介する。
MedGymは、連続的なフレームワーク内での経時的患者の進化をモデル化し、物理インフォームドニューラルネットワークを用いて臨床データから構成可能な医療RLベンチマークを構築する。
結果として得られたベンチマークは、オフラインとオンラインのRLの両方をサポートし、不規則な処理タイミング下での離散時間と連続時間のメソッドと、患者固有のダイナミクスを直接比較することができる。
さらに、MedGymはパーソナライゼーション、軌道レベルの安全性、モデルベースのオフライン学習とオンラインデプロイメントのパフォーマンスギャップなど、臨床的に重要な視点からの評価をサポートする。
MedGymは、継続的動的治療のための標準化された設定可能なベンチマークを提供することで、医療RL法のより現実的で情報的な評価を促進することを目指している。
関連論文リスト
- From Static Risk to Dynamic Trajectories: Toward World-Model-Inspired Clinical Prediction [61.12883122613684]
本稿では, 患者固有の縦断疾患の進展を推定し, 代替治療下での軌跡変化を評価するための, 臨床AIにおける介入認識型疾患軌跡モデリングに焦点をあてる。
3つの意思決定タスク(実測,反実推定,政策評価)と3つのデータ生成機構(障害発生, 治療課題, 観察過程)によって, 識別可能性を決定する。
本稿では,個別/連続時間にまたがる予測,反ファクト的軌跡,政策評価の統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2026-05-16T10:45:26Z) - Agentifying Patient Dynamics within LLMs through Interacting with Clinical World Model [57.78184285979881]
敗血症治療推奨のための世界モデル拡張LDMエージェントであるSepsisAgentを紹介する。
SepsisAgentは、学習された臨床世界モデルを使用して、候補の流体圧薬の介入下での患者の反応をシミュレートする。
論文 参考訳(メタデータ) (2026-05-14T11:50:00Z) - Learning Dynamic Representations and Policies from Multimodal Clinical Time-Series with Informative Missingness [5.351519104745287]
マルチモーダルな臨床記録のための患者表現学習フレームワークを提案する。
このフレームワークは、構造化データとテキストデータから信号をキャプチャするマルチモーダルエンコーダと、その観測パターンを組み合わせる。
我々はMIMIC-III,MIMIC-IV,eICUのICUセプシスコホートについて検討した。
論文 参考訳(メタデータ) (2026-04-23T03:07:57Z) - Beyond the ATE: Interpretable Modelling of Treatment Effects over Dose and Time [46.2482873419289]
本研究では, 治療効果トラジェクトリを線量および時間とともに滑らかな表面としてモデル化する枠組みを提案する。
本研究は, 臨床的に有意な特性の特定から, 軌道形状の推定を分離する。
本手法は, 処理力学の精度, 解釈可能, 編集可能なモデルを生成する。
論文 参考訳(メタデータ) (2025-07-09T20:33:33Z) - medDreamer: Model-Based Reinforcement Learning with Latent Imagination on Complex EHRs for Clinical Decision Support [3.8382507197481144]
medDreamerは、パーソナライズされた治療レコメンデーションのための新しいモデルベースの強化学習フレームワークである。
不規則なデータから潜伏した患者の状態をシミュレートし、実と想像の軌跡のハイブリッドで訓練された2段階のポリシーを定めている。
これは、臨床結果と非政治指標の両方において、モデルフリーおよびモデルベースベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-05-26T10:16:39Z) - Dynamic Local Average Treatment Effects [19.014535120129338]
我々は,デジタルレコメンデーションと適応医療トライアルにおいて,片側非準拠の動的治療規則(DTR)を検討する。
局所的局所的平均処理効果(LATE)の非パラメトリック同定、推定、推定を行う。
この仮定は,複数の期間で動的LATEを識別するのに十分であることを示す。
論文 参考訳(メタデータ) (2024-05-02T16:52:09Z) - Continuous-Time Modeling of Counterfactual Outcomes Using Neural
Controlled Differential Equations [84.42837346400151]
反現実的な結果を予測することは、パーソナライズされたヘルスケアをアンロックする可能性がある。
既存の因果推論アプローチでは、観察と治療決定の間の通常の離散時間間隔が考慮されている。
そこで本研究では,腫瘍増殖モデルに基づく制御可能なシミュレーション環境を提案する。
論文 参考訳(メタデータ) (2022-06-16T17:15:15Z) - MIA-Prognosis: A Deep Learning Framework to Predict Therapy Response [58.0291320452122]
本稿では,患者の予後と治療反応を予測するための統合型深層学習手法を提案する。
我々は,マルチモーダル非同期時系列分類タスクとして,確率モデリングを定式化する。
我々の予測モデルは、長期生存の観点から、低リスク、高リスクの患者をさらに階層化する可能性がある。
論文 参考訳(メタデータ) (2020-10-08T15:30:17Z) - Estimating Counterfactual Treatment Outcomes over Time Through
Adversarially Balanced Representations [114.16762407465427]
時間とともに治療効果を推定するためにCRN(Counterfactual Recurrent Network)を導入する。
CRNは、患者履歴のバランスの取れた表現を構築するために、ドメイン敵のトレーニングを使用する。
本モデルでは, 正解率の予測と適切な治療時期の選択において, 誤差の低減を図っている。
論文 参考訳(メタデータ) (2020-02-10T20:47:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。