論文の概要: Reinforcement Learning for Target Zone Blood Glucose Control
- arxiv url: http://arxiv.org/abs/2508.03875v1
- Date: Tue, 05 Aug 2025 19:35:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.433511
- Title: Reinforcement Learning for Target Zone Blood Glucose Control
- Title(参考訳): 目標域血糖コントロールのための強化学習
- Authors: David H. Mguni, Jing Dong, Wanrong Yang, Ziquan Liu, Muhammad Salman Haleem, Baoxiang Wang,
- Abstract要約: 強化学習は治療のパーソナライズを約束するが、介入の遅延と不均一な効果に苦しむ。
本稿では,自動インスリンデリバリーなどT1DM技術における意思決定を支援するための新しいRLフレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.612220895230065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Managing physiological variables within clinically safe target zones is a central challenge in healthcare, particularly for chronic conditions such as Type 1 Diabetes Mellitus (T1DM). Reinforcement learning (RL) offers promise for personalising treatment, but struggles with the delayed and heterogeneous effects of interventions. We propose a novel RL framework to study and support decision-making in T1DM technologies, such as automated insulin delivery. Our approach captures the complex temporal dynamics of treatment by unifying two control modalities: \textit{impulse control} for discrete, fast-acting interventions (e.g., insulin boluses), and \textit{switching control} for longer-acting treatments and regime shifts. The core of our method is a constrained Markov decision process augmented with physiological state features, enabling safe policy learning under clinical and resource constraints. The framework incorporates biologically realistic factors, including insulin decay, leading to policies that better reflect real-world therapeutic behaviour. While not intended for clinical deployment, this work establishes a foundation for future safe and temporally-aware RL in healthcare. We provide theoretical guarantees of convergence and demonstrate empirical improvements in a stylised T1DM control task, reducing blood glucose level violations from 22.4\% (state-of-the-art) to as low as 10.8\%.
- Abstract(参考訳): 臨床的に安全な標的領域における生理的変数の管理は、特に1型糖尿病(T1DM)のような慢性疾患において、医療における中心的な課題である。
強化学習(Reinforcement Learning, RL)は、治療のパーソナライズを約束するが、介入の遅延と不均一な効果に苦慮する。
本稿では,自動インスリンデリバリーなどT1DM技術における意思決定を支援するための新しいRLフレームワークを提案する。
本手法は, 離散的かつ迅速な介入(例えばインスリン代謝)のための \textit{impulse Control} と, 長期的治療と体制転換のための \textit{switching Control の2つの制御モードを統一することにより, 治療の複雑な時間的ダイナミクスを捉える。
本手法の中核は,生理的特徴を付加したマルコフ決定プロセスであり,臨床および資源制約下での安全な政策学習を可能にする。
この枠組みには、インシュリンの崩壊を含む生物学的に現実的な要因が含まれており、実際の治療行動をより良く反映する政策につながっている。
臨床展開を意図したものではないが、この研究は将来の医療における安全かつ時間的に認識されるRLの基礎を確立している。
我々は,T1DM制御タスクにおける収束の理論的保証と経験的改善を示し,血糖値の違反を22.4\%(最先端)から10.8\%まで低減した。
関連論文リスト
- Are Large Language Models Dynamic Treatment Planners? An In Silico Study from a Prior Knowledge Injection Angle [3.0391297540732545]
インシリコ1型糖尿病シミュレーターにおいて,大型言語モデル (LLM) を動的インスリン投与剤として評価した。
以上の結果より, ゼロショットプロンプトを慎重に設計することで, より小型のLCMが同等あるいは優れた臨床成績を達成できることが示唆された。
LLMは、チェーン・オブ・シンドロームで刺激された時に過度にアグレッシブなインスリン投与など、顕著な制限を呈する。
論文 参考訳(メタデータ) (2025-08-06T13:46:02Z) - Beyond the ATE: Interpretable Modelling of Treatment Effects over Dose and Time [46.2482873419289]
本研究では, 治療効果トラジェクトリを線量および時間とともに滑らかな表面としてモデル化する枠組みを提案する。
本研究は, 臨床的に有意な特性の特定から, 軌道形状の推定を分離する。
本手法は, 処理力学の精度, 解釈可能, 編集可能なモデルを生成する。
論文 参考訳(メタデータ) (2025-07-09T20:33:33Z) - Towards Regulatory-Confirmed Adaptive Clinical Trials: Machine Learning Opportunities and Solutions [59.28853595868749]
本研究は,全人口と低給付人口の規制制約と治療方針値を統合した将来の臨床試験の新たな2つの目的を紹介する。
我々は、第III相臨床試験を設計するための新しい枠組みであるRFAN(Randomize First Augment Next)を定式化する。
我々のフレームワークは、標準的なランダム化コンポーネントと適応コンポーネントから構成されており、臨床試験中に患者を効率よく安全に獲得し、患者を治療アームに割り当てることを目的としている。
論文 参考訳(メタデータ) (2025-03-12T10:17:54Z) - Flexible Blood Glucose Control: Offline Reinforcement Learning from Human Feedback [3.3457851904072595]
Paintは、患者記録から柔軟なインスリン投与ポリシーを学ぶためのオリジナルのRLフレームワークである。
Labelledデータは報酬モデルをトレーニングし、新しい安全制約付きオフラインRLアルゴリズムの動作を通知する。
In-silico 評価では、Paint は所望の状態を単純なラベル付けすることで、一般的なグルコース目標を達成し、商業ベンチマークで血糖リスクを15%削減している。
論文 参考訳(メタデータ) (2025-01-27T11:31:40Z) - Training-Aware Risk Control for Intensity Modulated Radiation Therapies Quality Assurance with Conformal Prediction [7.227232362460348]
測定品質保証の実践は、がん治療における強度変調放射線療法(IMRT)の安全利用において重要な役割を担っている。
これらのプラクティスにより、測定ベースのIMRT QA障害が1%以下になった。
そこで本研究では,共形リスク制御と共形トレーニングの利点を組み合わせることで,新たな訓練適応型共形リスク制御手法を提案する。
論文 参考訳(メタデータ) (2025-01-15T17:19:51Z) - An Improved Strategy for Blood Glucose Control Using Multi-Step Deep Reinforcement Learning [3.5757761767474876]
血糖コントロール(BG)は、体外インスリン注入によって、個人のBGを健康な範囲に保持する。
最近の研究は、個別化および自動化されたBG制御アプローチの探索に費やされている。
深層強化学習(DRL)は新たなアプローチとしての可能性を示している。
論文 参考訳(メタデータ) (2024-03-12T11:53:00Z) - Hybrid Control Policy for Artificial Pancreas via Ensemble Deep
Reinforcement Learning [13.783833824324333]
閉ループグルコース制御の課題に対処するために, 人工膵(HyCPAP)のハイブリッド制御ポリシーを提案する。
FDAが承認したUVA/Padova T1DMシミュレータを用いた広範囲な実験を行った。
本手法は所望のユーグリセミック範囲で過ごす時間が最も多く,低血糖の発生率が最も低い。
論文 参考訳(メタデータ) (2023-07-13T00:53:09Z) - Automatic diagnosis of knee osteoarthritis severity using Swin
transformer [55.01037422579516]
変形性膝関節症 (KOA) は膝関節の慢性的な痛みと硬直を引き起こす疾患である。
我々は,Swin Transformer を用いて KOA の重大度を予測する自動手法を提案する。
論文 参考訳(メタデータ) (2023-07-10T09:49:30Z) - Pruning the Way to Reliable Policies: A Multi-Objective Deep Q-Learning Approach to Critical Care [46.2482873419289]
我々は、より信頼性の高いクリティカルケアポリシーを得るための深いQ-ラーニングアプローチを導入する。
本手法を,集中治療室のシミュレーション環境と実際の健康記録を用いて,オフライン・オフ・セッティングで評価した。
論文 参考訳(メタデータ) (2023-06-13T18:02:57Z) - Automated Fidelity Assessment for Strategy Training in Inpatient
Rehabilitation using Natural Language Processing [53.096237570992294]
戦略トレーニング (Strategy Training) とは、脳卒中後の認知障害患者に障害を減らすためのスキルを教える、リハビリテーションのアプローチである。
標準化された忠実度評価は治療原則の遵守度を測定するために用いられる。
本研究では,ルールベースNLPアルゴリズム,長短項メモリ(LSTM)モデル,および変換器(BERT)モデルからの双方向エンコーダ表現を開発した。
論文 参考訳(メタデータ) (2022-09-14T15:33:30Z) - Boundary Guided Semantic Learning for Real-time COVID-19 Lung Infection
Segmentation System [69.40329819373954]
新型コロナウイルス(COVID-19)は、世界中の医療システムに悪影響を及ぼし続けている。
現段階では、新型コロナウイルスの診断と治療には、CT画像から肺感染症領域を自動的に分離することが不可欠である。
本稿では,境界案内型セマンティックラーニングネットワーク(BSNet)を提案する。
論文 参考訳(メタデータ) (2022-09-07T05:01:38Z) - DTR Bandit: Learning to Make Response-Adaptive Decisions With Low Regret [59.81290762273153]
動的治療体制 (DTR) はパーソナライズされ適応された多段階の治療計画であり、治療決定を個人の初期特徴に適応させ、その後の各段階における中間結果と特徴に適応させる。
本稿では,探索と搾取を慎重にバランスさせることで,遷移モデルと報酬モデルが線形である場合に,速度-最適後悔を実現する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T13:03:42Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。