論文の概要: Benchmarking Offline Multi-Objective Reinforcement Learning in Critical Care
- arxiv url: http://arxiv.org/abs/2512.08012v1
- Date: Mon, 08 Dec 2025 20:09:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.711071
- Title: Benchmarking Offline Multi-Objective Reinforcement Learning in Critical Care
- Title(参考訳): 医療におけるオフライン多目的強化学習のベンチマーク
- Authors: Aryaman Bansal, Divya Sharma,
- Abstract要約: 批判的なケア環境では、臨床医は競合する目標のバランスをとることの難しさに直面し、主に患者の生存を最大化し、資源利用を最小化する。
単目的強化学習のアプローチは通常、固定されたスカラー化された報酬関数を最適化することでこの問題に対処する。
本稿では,MIMIC-IVデータセット上の3つの単目的ベースラインに対して,3つのオフラインMORLアルゴリズムをベンチマークする。
- 参考スコア(独自算出の注目度): 0.07161783472741748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In critical care settings such as the Intensive Care Unit, clinicians face the complex challenge of balancing conflicting objectives, primarily maximizing patient survival while minimizing resource utilization (e.g., length of stay). Single-objective Reinforcement Learning approaches typically address this by optimizing a fixed scalarized reward function, resulting in rigid policies that fail to adapt to varying clinical priorities. Multi-objective Reinforcement Learning (MORL) offers a solution by learning a set of optimal policies along the Pareto Frontier, allowing for dynamic preference selection at test time. However, applying MORL in healthcare necessitates strict offline learning from historical data. In this paper, we benchmark three offline MORL algorithms, Conditioned Conservative Pareto Q-Learning (CPQL), Adaptive CPQL, and a modified Pareto Efficient Decision Agent (PEDA) Decision Transformer (PEDA DT), against three scalarized single-objective baselines (BC, CQL, and DDQN) on the MIMIC-IV dataset. Using Off-Policy Evaluation (OPE) metrics, we demonstrate that PEDA DT algorithm offers superior flexibility compared to static scalarized baselines. Notably, our results extend previous findings on single-objective Decision Transformers in healthcare, confirming that sequence modeling architectures remain robust and effective when scaled to multi-objective conditioned generation. These findings suggest that offline MORL is a promising framework for enabling personalized, adjustable decision-making in critical care without the need for retraining.
- Abstract(参考訳): 集中治療室のような重要なケア環境では、臨床医は競合する目標のバランスをとるという複雑な課題に直面し、主に患者の生存を最大化し、資源利用を最小化(例えば、滞在期間)する。
単目的強化学習のアプローチは通常、固定されたスカラー化された報酬関数を最適化することでこの問題に対処する。
MORL(Multi-objective Reinforcement Learning)は,Paretoフロンティアに沿った最適なポリシセットを学習することで,テスト時の動的選好選択を可能にするソリューションを提供する。
しかし、MORLを医療に適用するには、歴史的データからの厳密なオフライン学習が必要である。
本稿では、MIMIC-IVデータセット上の3つのスカラー化された単一目的ベースライン(BC、CQL、DDQN)に対して、3つのオフラインMORLアルゴリズム、条件付き保守的パレートQラーニング(CPQL)、適応CPQL、修正されたパレート効率決定エージェント(PEDA)決定変換器(PEDA DT)をベンチマークする。
OPE(Off-Policy Evaluation)メトリクスを用いて,PEDA DTアルゴリズムが静的なスカラー化ベースラインよりも優れた柔軟性を提供することを示す。
特に,本研究の結果は, 単一目的の意思決定変換器における従来の知見を拡張し, 多目的の条件付き世代に拡張した場合, シーケンスモデリングアーキテクチャが堅牢かつ効果的であることを確認した。
これらの結果から, オフラインMORLは, 再トレーニングを必要とせず, 個別化, 調整可能な意思決定を可能にするための, 有望なフレームワークであることが示唆された。
関連論文リスト
- A Closed-Loop Personalized Learning Agent Integrating Neural Cognitive Diagnosis, Bounded-Ability Adaptive Testing, and LLM-Driven Feedback [5.190121417265426]
本稿では,ニューラル認知診断モデル(NCD),境界能力コンピュータ適応テスト戦略(BECAT),大規模言語モデル(LLM)を統合するエンド・ツー・エンドの個別学習エージェントを提案する。
ASSISTmentsデータセットの実験では、NCDモジュールは解釈可能なマスタリーアセスメントを出力しながら応答予測において高い性能を達成する。
全体としては,提案した設計は効果的かつ実用的に展開可能であることを示唆している。
論文 参考訳(メタデータ) (2025-10-26T07:32:31Z) - Test-time Offline Reinforcement Learning on Goal-related Experience [50.94457794664909]
基礎モデルの研究では、テストタイムトレーニングによってパフォーマンスが大幅に改善できることが示されている。
本稿では、オフラインデータセットから現在の状態への関連性に応じて遷移を選択する、新しい自己教師型データ選択基準を提案する。
目標条件付きテストタイムトレーニング(GC-TTT)アルゴリズムは、評価中にこのルーチンを後退水平方式で適用し、現在の軌道にポリシーを適用する。
論文 参考訳(メタデータ) (2025-07-24T21:11:39Z) - medDreamer: Model-Based Reinforcement Learning with Latent Imagination on Complex EHRs for Clinical Decision Support [3.8382507197481144]
medDreamerは、パーソナライズされた治療レコメンデーションのための新しいモデルベースの強化学習フレームワークである。
不規則なデータから潜伏した患者の状態をシミュレートし、実と想像の軌跡のハイブリッドで訓練された2段階のポリシーを定めている。
これは、臨床結果と非政治指標の両方において、モデルフリーおよびモデルベースベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-05-26T10:16:39Z) - UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [51.00436121587591]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメトリした線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Pruning the Way to Reliable Policies: A Multi-Objective Deep Q-Learning Approach to Critical Care [46.2482873419289]
我々は、より信頼性の高いクリティカルケアポリシーを得るための深いQ-ラーニングアプローチを導入する。
本手法を,集中治療室のシミュレーション環境と実際の健康記録を用いて,オフライン・オフ・セッティングで評価した。
論文 参考訳(メタデータ) (2023-06-13T18:02:57Z) - Deep Offline Reinforcement Learning for Real-world Treatment
Optimization Applications [3.770564448216192]
オフラインRLトレーニングにおける動作不均衡に対処するための,実践的かつ理論的に基礎的な遷移サンプリング手法を提案する。
糖尿病と敗血症治療最適化のための2つの現実的課題について広範な実験を行った。
本提案手法は, 様々な原則および臨床関連指標を用いて, 期待される健康影響を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2023-02-15T09:30:57Z) - Addressing the issue of stochastic environments and local
decision-making in multi-objective reinforcement learning [0.0]
多目的強化学習(MORL)は、従来の強化学習(RL)に基づく比較的新しい分野である。
この論文は、価値に基づくMORL Q-learningアルゴリズムが環境の最適ポリシーを学習する頻度に影響を与える要因に焦点を当てている。
論文 参考訳(メタデータ) (2022-11-16T04:56:42Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。