論文の概要: MPC-guided Imitation Learning of Neural Network Policies for the
Artificial Pancreas
- arxiv url: http://arxiv.org/abs/2003.01283v1
- Date: Tue, 3 Mar 2020 01:25:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 22:26:08.810469
- Title: MPC-guided Imitation Learning of Neural Network Policies for the
Artificial Pancreas
- Title(参考訳): 人工膵におけるニューラルネットワーク政策のmpc誘導模倣学習
- Authors: Hongkai Chen, Nicola Paoletti, Scott A. Smolka, Shan Lin
- Abstract要約: 我々は、Imitation Learningを用いて神経ネットワークインスリンポリシーを合成するAP制御に新しいアプローチを導入する。
このようなポリシーは計算的に効率的であり、訓練時に完全な状態情報でMPCを計測することで、測定結果を最適な治療決定にマッピングすることができる。
特定の患者モデルの下で訓練されたコントロールポリシーは,患者コホートに対して容易に(モデルパラメータや外乱分布の観点から)一般化できることが示唆された。
- 参考スコア(独自算出の注目度): 7.019683407682642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Even though model predictive control (MPC) is currently the main algorithm
for insulin control in the artificial pancreas (AP), it usually requires
complex online optimizations, which are infeasible for resource-constrained
medical devices. MPC also typically relies on state estimation, an error-prone
process. In this paper, we introduce a novel approach to AP control that uses
Imitation Learning to synthesize neural-network insulin policies from
MPC-computed demonstrations. Such policies are computationally efficient and,
by instrumenting MPC at training time with full state information, they can
directly map measurements into optimal therapy decisions, thus bypassing state
estimation. We apply Bayesian inference via Monte Carlo Dropout to learn
policies, which allows us to quantify prediction uncertainty and thereby derive
safer therapy decisions. We show that our control policies trained under a
specific patient model readily generalize (in terms of model parameters and
disturbance distributions) to patient cohorts, consistently outperforming
traditional MPC with state estimation.
- Abstract(参考訳): モデル予測制御(MPC)は、現在、人工膵臓(AP)におけるインスリン制御の主要なアルゴリズムであるが、通常は複雑なオンライン最適化を必要とする。
MPCは通常、エラーを起こしやすいプロセスである状態推定に依存する。
本稿では,模倣学習を用いてmpcを用いた実験からニューラルネットワークインスリンポリシを合成する新しいap制御手法を提案する。
このようなポリシーは計算効率が良く、訓練時間にmpcを完全な状態情報で計測することで、最適な治療決定に直接測定をマッピングできるため、状態推定を回避できる。
我々はモンテカルロ・ドロップアウトによるベイズ推定を学習ポリシーに適用し、予測の不確実性を定量化し、より安全な治療決定を導出する。
特定の患者モデルの下で訓練されたコントロールポリシーは,患者コホートに対して容易に(モデルパラメータや外乱分布の観点から)一般化し,従来型MPCの状態を常に上回ることを示す。
関連論文リスト
- Contextualized Policy Recovery: Modeling and Interpreting Medical
Decisions with Adaptive Imitation Learning [41.42387876557317]
解釈可能な政策学習は、観察された行動から無知な決定ポリシーを推定しようとする。
既存のモデルは、正確性と解釈可能性の間のトレードオフを強制することによって、不足する。
本稿では,複雑な意思決定プロセスのモデル化の問題を再検討する文脈的政策回復(CPR)を提案する。
論文 参考訳(メタデータ) (2023-10-11T22:17:37Z) - End-to-End Reinforcement Learning of Koopman Models for Economic
Nonlinear Model Predictive Control [50.0791489606211]
非線形モデル予測制御((e)NMPC)は、すべての状態空間領域において十分正確なシステムモデルを必要とする。
メカニスティックモデルのためのデータ駆動サロゲートモデルは、(e)NMPCの計算負担を軽減するために使用できる。
In this method for end-to-end reinforcement learning of dynamic surrogate model for optimal performance in (e)NMPC applications。
論文 参考訳(メタデータ) (2023-08-03T10:21:53Z) - Smooth Model Predictive Control with Applications to Statistical
Learning [19.06936620903542]
本稿では,制約をバリア関数に置き換える線形モデル予測制御(MPC)のスムーズな近似について検討する。
特に、障壁MPCは、元の非滑らかなMPCポリシーの指数的安定性特性を継承することを示す。
論文 参考訳(メタデータ) (2023-06-02T20:43:38Z) - Policy Optimization for Personalized Interventions in Behavioral Health [8.69967783513041]
デジタルプラットフォームを通じて提供される行動的健康介入は、健康結果を大幅に改善する可能性がある。
患者に対するパーソナライズされた介入を最適化して長期的効果を最大化する問題について検討した。
この問題に対する新たなアプローチとして,政策イテレーションの一段階を近似したDecompPIを提案する。
論文 参考訳(メタデータ) (2023-03-21T21:42:03Z) - Safe AI for health and beyond -- Monitoring to transform a health
service [51.8524501805308]
機械学習アルゴリズムの出力を監視するために必要なインフラストラクチャを評価する。
モデルのモニタリングと更新の例を示す2つのシナリオを提示します。
論文 参考訳(メタデータ) (2023-03-02T17:27:45Z) - Model Predictive Control via On-Policy Imitation Learning [28.96122879515294]
我々は,データ駆動型モデル予測制御のための新しいサンプル複雑性結果と性能保証を開発する。
我々のアルゴリズムは制約付き線形MPCの構造を用いており、解析は明示的なMPC解の特性を用いて、最適性能を達成するのに必要なオンラインMPCトラジェクトリの数を理論的に制限する。
論文 参考訳(メタデータ) (2022-10-17T16:06:06Z) - POETREE: Interpretable Policy Learning with Adaptive Decision Trees [78.6363825307044]
POETREEは、ポリシー学習を解釈するための新しいフレームワークである。
患者の観察と医療史に基づいて、医師の行動を決定する確率的ツリーポリシーを構築する。
これは、リアルおよび合成医療データセットの最先端を上回ります。
論文 参考訳(メタデータ) (2022-03-15T16:50:52Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Hemogram Data as a Tool for Decision-making in COVID-19 Management:
Applications to Resource Scarcity Scenarios [62.997667081978825]
新型コロナウイルス(COVID-19)のパンデミックは世界中の緊急対応システムに挑戦している。
本研究は, 症状患者の血液検査データから得られた機械学習モデルについて述べる。
提案されたモデルでは、新型コロナウイルスqRT-PCRの結果を、高い精度、感度、特異性で症状のある個人に予測することができる。
論文 参考訳(メタデータ) (2020-05-10T01:45:03Z) - Planning as Inference in Epidemiological Models [15.097226158765334]
既存の疫学モデルで推論を行うことにより,感染症対策政策プロセスの一部を自動化する方法を実証する。
本稿では,既存のシミュレータにおける推論を自動化する確率型プログラミング言語の使用について説明する。
論文 参考訳(メタデータ) (2020-03-30T05:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。