論文の概要: Recurrent Deep Reinforcement Learning for Chemotherapy Control under Partial Observability
- arxiv url: http://arxiv.org/abs/2605.02552v1
- Date: Mon, 04 May 2026 13:00:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.290995
- Title: Recurrent Deep Reinforcement Learning for Chemotherapy Control under Partial Observability
- Title(参考訳): 部分可観測下における化学療法制御のための繰り返し深部強化学習
- Authors: Firas Mohamed Elamine Kiram, Imane Youkana, Rachida Saouli, Gian Antonio Susto, Laid Kahloul,
- Abstract要約: 記憶増強政策が部分的可観測性の下で化学療法制御を改善できるかどうかを検討する。
10個のランダム種子にまたがって、再現性は完全な可観測性の下では控えめな利益をもたらすが、部分可観測性の下ではより強く、より安定した性能が得られる。
- 参考スコア(独自算出の注目度): 6.650703382349715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chemotherapy dose optimization can be formulated as a dynamic treatment regime, requiring sequential decisions under uncertainty that must balance tumor suppression against toxicity. However, most reinforcement learning approaches assume full observability of the patient state, a condition rarely met in clinical practice. We investigate whether memory-augmented policies can improve chemotherapy control under partial observability. To this end, we employ a recurrent TD3-based approach with separate LSTM actor-critic networks and evaluate it on the AhnChemoEnv benchmark from DTR-Bench, considering both off-policy and on-policy recurrent architectures against feed-forward TD3 and Soft Actor-Critic. Pharmacokinetic and pharmacodynamic variability are held fixed to isolate hidden-state uncertainty and observation noise and to avoid confounding effects from inter-patient variability. Across ten random seeds, recurrence yields modest benefit under full observability but substantially stronger and more stable performance under partial observability, with more consistent tumor suppression and improved normal-cell preservation. These findings indicate that memory-based policies are particularly beneficial when clinically relevant state information is incomplete or noisy.
- Abstract(参考訳): 化学療法用量最適化は、ダイナミックな治療体制として定式化することができ、腫瘍抑制と毒性のバランスをとる必要がある不確実性の下でのシーケンシャルな決定を必要とする。
しかし、ほとんどの強化学習アプローチは患者の状態が完全に観察可能であることを前提としている。
記憶増強政策が部分的可観測性の下で化学療法制御を改善できるかどうかを検討する。
この目的のために、我々はLSTMアクタークリティカルネットワークを分離したTD3ベースのリカレントアプローチを採用し、DTR-BenchのAhnChemoEnvベンチマークで、フィードフォワードTD3とソフトアクター-Criticに対するオフポリティとオンポリティクスの両方のリカレントアーキテクチャを考慮して評価する。
薬物動態および薬物動態の変動は、隠蔽状態の不確かさと観察ノイズを分離し、患者間の変動による相反する影響を避けるために固定される。
10個の無作為種子に対して, 完全可観測性下では最小限の利益が得られたが, 部分可観測性ではより強く, より安定した性能を示し, より一貫した腫瘍抑制と正常細胞保存の改善が図られた。
これらの結果から, 臨床的に関連のある状態情報が不完全あるいはうるさい場合には, メモリベースのポリシーが特に有用であることが示唆された。
関連論文リスト
- Beyond Prompt: Fine-grained Simulation of Cognitively Impaired Standardized Patients via Stochastic Steering [58.85421622061983]
認知障害患者の微粒化シミュレーションのためのStsPatientを提案する。
対照的な命令と応答のペアからステアリングベクトルを抽出することにより、ドメイン固有の特徴を捉える。
StsPatientは、臨床の信頼性と重症度の両方において、ベースラインを著しく上回る。
論文 参考訳(メタデータ) (2026-04-14T02:37:46Z) - Ensuring Safety in Automated Mechanical Ventilation through Offline Reinforcement Learning and Digital Twin Verification [9.198591097391448]
メカニカル換気(Mechanical ventilation, MV)は、ICUの急性呼吸不全(ARF)患者の救命介入である。
MVにパーソナライズと自動化を統合する以前の試みには、従来の教師付き学習とオフライン強化学習(RL)アプローチがある。
患者動態の時間的モデリングにトランスフォーマーエンコーダを統合する新しいオフラインRLフレームワークであるTransformer-based conservative Q-Learning (T-CQL)を提案する。
論文 参考訳(メタデータ) (2026-03-11T23:21:02Z) - Dimension-reduced outcome-weighted learning for estimating individualized treatment regimes in observational studies [1.338174941551702]
個別治療体制(ITR)は、患者固有の特徴に基づいて治療を割り当てることにより、臨床結果を改善することを目的としている。
本稿では,潜在的結果のコントラストを目標とし,低次元部分空間を同定する,新しい十分次元削減手法を提案する。
提案手法は,緩やかな規則性条件下で,ベイズリスクに収束する普遍的整合性を実現することを示す。
論文 参考訳(メタデータ) (2026-01-11T05:38:08Z) - Reinforcement Learning for Self-Healing Material Systems [0.40334315349753025]
本研究は、マルコフ決定プロセス(MDP)における強化学習問題として自己修復過程を考察し、エージェントが最適なポリシーを自律的に導出できるようにする。
シミュレーション環境下での離散作用(Q-learning, DQN)と連続作用(TD3)の比較評価により, RLコントローラはベースラインを著しく上回り, ほぼ完全な材料回収を実現していることがわかった。
論文 参考訳(メタデータ) (2025-11-24T03:42:00Z) - Transparent Early ICU Mortality Prediction with Clinical Transformer and Per-Case Modality Attribution [42.85462513661566]
ICU滞在後48時間から, 生理的時系列測定と非構造的臨床記録とを融合した, 軽量で透明なマルチモーダルアンサンブルを提案する。
ロジスティック回帰モデルは、バイタル用双方向LSTMとノート用微調整された臨床ModernBERT変換器の2つのモード固有モデルからの予測を組み合わせる。
MIMIC-IIIベンチマークでは、遅延融合アンサンブルは、よく校正された予測を維持しながら、最高の単一モデルに対する差別を改善する。
論文 参考訳(メタデータ) (2025-11-19T20:11:49Z) - Rediscovering Entropy Regularization: Adaptive Coefficient Unlocks Its Potential for LLM Reinforcement Learning [55.59724323303857]
本稿では,3つのコンポーネントによる探索と利用のバランスをとるフレームワークを提案する。
複数の数学的推論ベンチマークの実験は、AERが一貫してベースラインを上回り、推論精度と探索能力の両方を改善していることを示している。
論文 参考訳(メタデータ) (2025-10-13T03:10:26Z) - Distribution-Free Uncertainty Quantification in Mechanical Ventilation Treatment: A Conformal Deep Q-Learning Framework [2.5070297884580874]
本研究では,集中治療室における機械的換気を最適化するための,分布自由な共形深度Q-ラーニング手法であるConformalDQNを紹介する。
我々はMIMIC-IVデータベースからICU患者記録を用いてモデルを訓練・評価した。
論文 参考訳(メタデータ) (2024-12-17T06:55:20Z) - Safe and Interpretable Estimation of Optimal Treatment Regimes [54.257304443780434]
我々は、最適な治療体制を特定するための安全かつ解釈可能な枠組みを運用する。
本研究は患者の医療歴と薬理学的特徴に基づくパーソナライズされた治療戦略を支援する。
論文 参考訳(メタデータ) (2023-10-23T19:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。