論文の概要: Exploring Time-Step Size in Reinforcement Learning for Sepsis Treatment
- arxiv url: http://arxiv.org/abs/2511.20913v1
- Date: Tue, 25 Nov 2025 23:05:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.890617
- Title: Exploring Time-Step Size in Reinforcement Learning for Sepsis Treatment
- Title(参考訳): シープシス治療のための強化学習における時間ステップサイズ探索
- Authors: Yingchuan Sun, Shengpu Tang,
- Abstract要約: 我々は,時間段階のサイズが状態表現学習,行動クローニング,政策訓練,政治外の評価にどのように影響するかを定量化する。
私たちの研究は、医療のオフライン強化学習における中核的な設計選択として、タイムステップのサイズを強調しています。
- 参考スコア(独自算出の注目度): 6.402634424631121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing studies on reinforcement learning (RL) for sepsis management have mostly followed an established problem setup, in which patient data are aggregated into 4-hour time steps. Although concerns have been raised regarding the coarseness of this time-step size, which might distort patient dynamics and lead to suboptimal treatment policies, the extent to which this is a problem in practice remains unexplored. In this work, we conducted empirical experiments for a controlled comparison of four time-step sizes ($Δt\!=\!1,2,4,8$ h) on this domain, following an identical offline RL pipeline. To enable a fair comparison across time-step sizes, we designed action re-mapping methods that allow for evaluation of policies on datasets with different time-step sizes, and conducted cross-$Δt$ model selections under two policy learning setups. Our goal was to quantify how time-step size influences state representation learning, behavior cloning, policy training, and off-policy evaluation. Our results show that performance trends across $Δt$ vary as learning setups change, while policies learned at finer time-step sizes ($Δt = 1$ h and $2$ h) using a static behavior policy achieve the overall best performance and stability. Our work highlights time-step size as a core design choice in offline RL for healthcare and provides evidence supporting alternatives beyond the conventional 4-hour setup.
- Abstract(参考訳): 敗血症管理のための強化学習(RL)に関する既存の研究は、患者のデータを4時間の時間ステップに集約する、確立された問題設定に従っている。
患者動態を歪ませ、至適治療方針に繋がるこのタイムステップサイズの粗さについて懸念が持ち上がっているが、実際問題となる範囲は未解明のままである。
本研究では,4つの時間ステップサイズ(Δt\!)の制御比較実験を行った。
=\!
1,2,4,8$ h)であり、同一のオフラインRLパイプラインに従っている。
時間ステップサイズを公平に比較するために、異なる時間ステップサイズでデータセットのポリシーを評価可能なアクション再マッピング手法を設計し、2つのポリシー学習設定の下で、クロス$Δt$モデル選択を実行した。
我々のゴールは、時間段階のサイズが状態表現学習、行動クローニング、政策訓練、政治外の評価にどのように影響するかを定量化することであった。
以上の結果から,学習のセットアップが変化するにつれて,$Δt$のパフォーマンス傾向が変化し,静的な動作ポリシを用いて,より細かい時間ステップで学習したポリシー(Δt = 1$ h, 2$ h)が全体のパフォーマンスと安定性を達成することがわかった。
我々の研究は、医療のオフラインRLにおける中核的な設計選択として、タイムステップのサイズを強調し、従来の4時間のセットアップ以上の代替手段を支持する証拠を提供する。
関連論文リスト
- When to Sense and Control? A Time-adaptive Approach for Continuous-Time RL [37.58940726230092]
離散時間マルコフ決定過程(MDP)の最適化における強化学習(RL)の特長
この課題に対処するRLフレームワークであるTime-Adaptive Control & Sensing(TaCoS)を形式化する。
我々は、TaCoSで訓練された最先端のRLアルゴリズムが、その離散時間に対する相互作用量を劇的に削減できることを実証した。
論文 参考訳(メタデータ) (2024-06-03T09:57:18Z) - Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Decision S4: Efficient Sequence-Based RL via State Spaces Layers [87.3063565438089]
我々は、S4モデルの訓練効率を維持しつつ、軌道で機能する非政治的な訓練手順を提案する。
反復的に訓練され、長距離依存の恩恵を受け、新しい安定したアクター・クリティカルなメカニズムをベースとした、オンデマンドのトレーニング手順。
論文 参考訳(メタデータ) (2023-06-08T13:03:53Z) - Direct Random Search for Fine Tuning of Deep Reinforcement Learning
Policies [5.543220407902113]
直接ランダム検索は、決定論的ロールアウトを用いて直接最適化することにより、DRLポリシーを微調整するのに非常に効果的であることを示す。
その結果, 本手法は, テストした環境において, より一貫性があり, 高性能なエージェントが得られることがわかった。
論文 参考訳(メタデータ) (2021-09-12T20:12:46Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。