論文の概要: Hybrid Control Policy for Artificial Pancreas via Ensemble Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2307.06501v1
- Date: Thu, 13 Jul 2023 00:53:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-14 16:18:47.931073
- Title: Hybrid Control Policy for Artificial Pancreas via Ensemble Deep
Reinforcement Learning
- Title(参考訳): アンサンブル深層強化学習による人工膵のハイブリッド制御
- Authors: Wenzhou Lv, Tianyu Wu, Luolin Xiong, Liang Wu, Jian Zhou, Yang Tang,
Feng Qi
- Abstract要約: 閉ループグルコース制御の課題に対処するために, 人工膵(HyCPAP)のハイブリッド制御ポリシーを提案する。
FDAが承認したUVA/Padova T1DMシミュレータを用いた広範囲な実験を行った。
本手法は所望のユーグリセミック範囲で過ごす時間が最も多く,低血糖の発生率が最も低い。
- 参考スコア(独自算出の注目度): 11.028294119097557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Objective: The artificial pancreas (AP) has shown promising potential in
achieving closed-loop glucose control for individuals with type 1 diabetes
mellitus (T1DM). However, designing an effective control policy for the AP
remains challenging due to the complex physiological processes, delayed insulin
response, and inaccurate glucose measurements. While model predictive control
(MPC) offers safety and stability through the dynamic model and safety
constraints, it lacks individualization and is adversely affected by
unannounced meals. Conversely, deep reinforcement learning (DRL) provides
personalized and adaptive strategies but faces challenges with distribution
shifts and substantial data requirements. Methods: We propose a hybrid control
policy for the artificial pancreas (HyCPAP) to address the above challenges.
HyCPAP combines an MPC policy with an ensemble DRL policy, leveraging the
strengths of both policies while compensating for their respective limitations.
To facilitate faster deployment of AP systems in real-world settings, we
further incorporate meta-learning techniques into HyCPAP, leveraging previous
experience and patient-shared knowledge to enable fast adaptation to new
patients with limited available data. Results: We conduct extensive experiments
using the FDA-accepted UVA/Padova T1DM simulator across three scenarios. Our
approaches achieve the highest percentage of time spent in the desired
euglycemic range and the lowest occurrences of hypoglycemia. Conclusion: The
results clearly demonstrate the superiority of our methods for closed-loop
glucose management in individuals with T1DM. Significance: The study presents
novel control policies for AP systems, affirming the great potential of
proposed methods for efficient closed-loop glucose control.
- Abstract(参考訳): 目的: 人工膵 (ap) は, 1型糖尿病 (t1dm) 患者に対する閉ループ血糖コントロールを実現する可能性を示した。
しかし, apの効果的な制御方針の設計は, 複雑な生理的プロセス, インスリン応答の遅延, グルコース測定の不正確なため, 依然として困難である。
モデル予測制御(MPC)は、動的モデルと安全制約を通じて安全性と安定性を提供するが、個別化が欠如し、未発表の食事に悪影響を及ぼす。
逆に、深層強化学習(DRL)はパーソナライズされた適応的な戦略を提供するが、分散シフトや実質的なデータ要求といった課題に直面している。
方法: 以上の課題に対処するため, 人工膵(HyCPAP)のハイブリッド制御ポリシーを提案する。
hycpapはmpcポリシーとdrlポリシーを組み合わせることで、それぞれの制限を補償しながら両方のポリシーの強みを活用する。
実環境におけるAPシステムの迅速な展開を容易にするため,HyCPAPにメタラーニング技術を取り入れ,既往の経験と患者が共有した知識を活用して,限られたデータを持つ新規患者への迅速な適応を可能にする。
結果: FDA が承認した UVA/Padova T1DM シミュレータを用いて, 広範囲にわたる実験を行った。
提案手法は, 所望のeuglycemic rangeにおける最多使用時間と低血糖発生率を達成する。
結論: t1dm患者においてクローズドループグルコース管理法が優れていることが明らかとなった。
意義:本研究は,効率的なクローズドループグルコース制御法の可能性を確認し,APシステムの新しい制御方針を示す。
関連論文リスト
- Hierarchical Preference Optimization: Learning to achieve goals via feasible subgoals prediction [71.81851971324187]
本研究は階層型強化学習(HRL)の新しいアプローチである階層型優先度最適化(HPO)を導入する。
HPOは、複雑なロボット制御タスクを解く際に、非定常性と非実用的なサブゴール生成の問題に対処する。
挑戦的なロボットナビゲーションと操作タスクの実験はHPOの素晴らしいパフォーマンスを示しており、ベースラインよりも最大35%改善されている。
論文 参考訳(メタデータ) (2024-11-01T04:58:40Z) - GlucoBench: Curated List of Continuous Glucose Monitoring Datasets with Prediction Benchmarks [0.12564343689544843]
連続血糖モニター (Continuous glucose monitors, CGM) は、血糖値を一定間隔で測定する小さな医療機器である。
CGMデータに基づくグルコーストラジェクトリの予測は、糖尿病管理を大幅に改善する可能性を秘めている。
論文 参考訳(メタデータ) (2024-10-08T08:01:09Z) - Privacy Preserved Blood Glucose Level Cross-Prediction: An Asynchronous Decentralized Federated Learning Approach [13.363740869325646]
新たに診断された1型糖尿病(T1D)患者は、効果的な血液グルコース(BG)予測モデルを得るのに苦慮することが多い。
Asynchronous Decentralized Federated Learning による血糖予測である「GluADFL」を提案する。
論文 参考訳(メタデータ) (2024-06-21T17:57:39Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - An Improved Strategy for Blood Glucose Control Using Multi-Step Deep Reinforcement Learning [3.5757761767474876]
血糖コントロール(BG)は、体外インスリン注入によって、個人のBGを健康な範囲に保持する。
最近の研究は、個別化および自動化されたBG制御アプローチの探索に費やされている。
深層強化学習(DRL)は新たなアプローチとしての可能性を示している。
論文 参考訳(メタデータ) (2024-03-12T11:53:00Z) - Nurse-in-the-Loop Artificial Intelligence for Precision Management of
Type 2 Diabetes in a Clinical Trial Utilizing Transfer-Learned Predictive
Digital Twin [5.521385406191426]
本研究は, 予測ディジタルツイン(PDT)を利用したオンラインナース・イン・ザ・ループ予測制御(ONLC)モデルを開発した。
PDTは、最初の3ヶ月から参加者の自己モニタリングデータ(体重、食物ログ、身体活動、グルコース)をトレーニングした。
ONLCは介入グループに個別のフィードバックとテキストメッセージによるレコメンデーションを提供した。
論文 参考訳(メタデータ) (2024-01-05T06:38:50Z) - Theoretically Guaranteed Policy Improvement Distilled from Model-Based
Planning [64.10794426777493]
モデルベース強化学習(RL)は、様々な連続制御タスクにおいて顕著な成功を収めた。
近年のプラクティスでは、最適化されたアクションシーケンスをトレーニングフェーズ中にRLポリシーに蒸留する傾向にある。
我々は,モデルに基づく計画から政策への蒸留アプローチを開発する。
論文 参考訳(メタデータ) (2023-07-24T16:52:31Z) - SSM-DTA: Breaking the Barriers of Data Scarcity in Drug-Target Affinity
Prediction [127.43571146741984]
薬物標的親和性(DTA)は、早期の薬物発見において極めて重要である。
湿式実験は依然として最も信頼性の高い方法であるが、時間と資源が集中している。
既存の手法は主に、データ不足の問題に適切に対処することなく、利用可能なDTAデータに基づく技術開発に重点を置いている。
SSM-DTAフレームワークについて述べる。
論文 参考訳(メタデータ) (2022-06-20T14:53:25Z) - Offline Reinforcement Learning for Safer Blood Glucose Control in People
with Type 1 Diabetes [1.1859913430860336]
オンライン強化学習(RL)は、糖尿病デバイスにおける血糖コントロールをさらに強化する方法として利用されてきた。
本稿では,FDAが承認したUVA/パドバ血糖動態シミュレータで利用可能な30名の仮想的患者の血糖管理におけるBCQ,CQL,TD3-BCの有用性について検討する。
オフラインのRLは、61.6 +-0.3%から65.3 +/-0.5%までの健康な血糖値において、最強の最先端のベースラインに比べて有意に上昇する。
論文 参考訳(メタデータ) (2022-04-07T11:52:12Z) - Evolutionary Stochastic Policy Distillation [139.54121001226451]
本稿では,GCRS課題を解決するための進化的政策蒸留法(ESPD)を提案する。
ESPDは、政策蒸留(PD)技術により、ターゲットポリシーを一連の変種から学習することを可能にする
MuJoCo制御系に基づく実験により,提案手法の学習効率が向上した。
論文 参考訳(メタデータ) (2020-04-27T16:19:25Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。