論文の概要: Stable CDE Autoencoders with Acuity Regularization for Offline Reinforcement Learning in Sepsis Treatment
- arxiv url: http://arxiv.org/abs/2506.15019v1
- Date: Tue, 17 Jun 2025 23:10:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.504655
- Title: Stable CDE Autoencoders with Acuity Regularization for Offline Reinforcement Learning in Sepsis Treatment
- Title(参考訳): シープシス治療におけるオフライン強化学習用安定CDEオートエンコーダ
- Authors: Yue Gao,
- Abstract要約: 敗血症治療のための効果的な強化学習(RL)は、不規則なICU時系列から、安定した、臨床的に有意な状態表現を学習することに依存する。
この研究は、制御微分方程式(CDE)状態表現が、2つの重要な因子が満たされたときに強いRLポリシーを達成できることを実証する。
- 参考スコア(独自算出の注目度): 8.692991479188032
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective reinforcement learning (RL) for sepsis treatment depends on learning stable, clinically meaningful state representations from irregular ICU time series. While previous works have explored representation learning for this task, the critical challenge of training instability in sequential representations and its detrimental impact on policy performance has been overlooked. This work demonstrates that Controlled Differential Equations (CDE) state representation can achieve strong RL policies when two key factors are met: (1) ensuring training stability through early stopping or stabilization methods, and (2) enforcing acuity-aware representations by correlation regularization with clinical scores (SOFA, SAPS-II, OASIS). Experiments on the MIMIC-III sepsis cohort reveal that stable CDE autoencoder produces representations strongly correlated with acuity scores and enables RL policies with superior performance (WIS return $> 0.9$). In contrast, unstable CDE representation leads to degraded representations and policy failure (WIS return $\sim$ 0). Visualizations of the latent space show that stable CDEs not only separate survivor and non-survivor trajectories but also reveal clear acuity score gradients, whereas unstable training fails to capture either pattern. These findings highlight practical guidelines for using CDEs to encode irregular medical time series in clinical RL, emphasizing the need for training stability in sequential representation learning.
- Abstract(参考訳): 敗血症治療のための効果的な強化学習(RL)は、不規則なICU時系列から、安定した、臨床的に有意な状態表現を学習することに依存する。
これまでの研究では、このタスクの表現学習について検討されてきたが、シーケンシャルな表現における不安定性のトレーニングと、政策パフォーマンスに対する有害な影響は見過ごされている。
本研究は,制御差分方程式(CDE)状態表現が,(1)早期停止・安定化手法によるトレーニング安定性の確保,(2)臨床スコアとの相関正則化(SOFA, SAPS-II, OASIS)による明度認識表現の実施,という2つの主要な要因が満たされた場合,強いRLポリシーを達成できることを実証する。
MIMIC-IIIセプシスコホートの実験により、安定なCDEオートエンコーダは、明度スコアと強く相関する表現を生成し、優れた性能を持つRLポリシーを実現する(WIS return $> 0.9$)。
対照的に、不安定なCDE表現は、劣化した表現とポリシーの失敗をもたらす(WIS return $\sim$ 0)。
潜伏空間の可視化は、安定なCDEが生存者と非生存軌道を分離するだけでなく、明らかな明度スコア勾配も示し、不安定なトレーニングはどちらのパターンも捕捉できないことを示している。
これらの知見は, 臨床RLにおける不規則な医療時系列を符号化するためにCDEを使用するための実践的ガイドラインを強調し, シーケンシャル表現学習におけるトレーニング安定性の必要性を強調した。
関連論文リスト
- DyCON: Dynamic Uncertainty-aware Consistency and Contrastive Learning for Semi-supervised Medical Image Segmentation [18.102129546708905]
動的不確実性を考慮した一貫性とコントラスト学習フレームワークであるDyCONを提案する。
UnCLは、各ボクセルの一貫性損失への寄与を動的に重み付けすることで、グローバルな一貫性を強制する。
FeCLは、二重焦点機構を導入することにより、不均衡領域における局所的特徴識別を強化する。
論文 参考訳(メタデータ) (2025-04-06T17:50:22Z) - Cross-Modal Consistency Learning for Sign Language Recognition [92.44927164283641]
既存の事前学習方法は、コンパクトなポーズデータのみに焦点を当てている。
クロスモーダル一貫性学習フレームワーク(CCL-SLR)を提案する。
CCL-SLRはRGBから学習し、自己教師付き事前学習に基づいてモダリティをポーズする。
論文 参考訳(メタデータ) (2025-03-16T12:34:07Z) - An AI System for Continuous Knee Osteoarthritis Severity Grading Using Self-Supervised Anomaly Detection with Limited Data [0.30723404270319693]
本研究は膝OAの自動連続グルーピングのための3段階的アプローチを提案する。
正常度の中心までの距離に基づいて、健康な膝X線の堅牢な表現と疾患の重症度を学ぶ。
提案手法は,OA検出率において最大24%のマージンで既存の技術よりも優れており,疾患重症度スコアはKellgren-Lawrenceグレーティングシステムと人間専門家の成績と同等のレベルで相関している。
論文 参考訳(メタデータ) (2024-07-16T08:37:33Z) - Towards stable training of parallel continual learning [27.774814769630453]
マルチソース入力を用いた連続学習における並列連続学習課題の検討
複数のタスクを同時にトレーニングする必要があるため、PCLの厳しいトレーニング不安定が生じる。
本稿では,PCLの学習安定性を高める新しい手法として,SPCL(Stable Parallel Continual Learning)を提案する。
論文 参考訳(メタデータ) (2024-07-11T06:31:04Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Dual-Consistency Semi-Supervised Learning with Uncertainty
Quantification for COVID-19 Lesion Segmentation from CT Images [49.1861463923357]
CT画像を用いた半監視型COVID-19病変分割のための不確実性誘導型二重一貫性学習ネットワーク(UDC-Net)を提案する。
提案した UDC-Net は,Dice の完全教師方式を 6.3% 向上させ,他の競合的半監督方式を有意なマージンで上回っている。
論文 参考訳(メタデータ) (2021-04-07T16:23:35Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z) - CLOCS: Contrastive Learning of Cardiac Signals Across Space, Time, and
Patients [17.58391771585294]
我々は,空間,時間,テキスト,患者間の表現が相互に類似することを奨励する,コントラスト学習手法であるCLOCSのファミリーを提案する。
CLOCSは、下流タスクの線形評価や微調整を行う際に、最先端のBYOLやSimCLRよりも一貫して優れていることを示す。
本訓練では,患者類似性の定量化に有効な患者特化表現を自然に生成する。
論文 参考訳(メタデータ) (2020-05-27T09:25:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。