論文の概要: Flexible Blood Glucose Control: Offline Reinforcement Learning from Human Feedback
- arxiv url: http://arxiv.org/abs/2501.15972v1
- Date: Mon, 27 Jan 2025 11:31:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:58:42.792581
- Title: Flexible Blood Glucose Control: Offline Reinforcement Learning from Human Feedback
- Title(参考訳): フレキシブル血糖コントロール:ヒトフィードバックからのオフライン強化学習
- Authors: Harry Emerson, Sam Gordon James, Matthew Guy, Ryan McConville,
- Abstract要約: Paintは、患者記録から柔軟なインスリン投与ポリシーを学ぶためのオリジナルのRLフレームワークである。
Labelledデータは報酬モデルをトレーニングし、新しい安全制約付きオフラインRLアルゴリズムの動作を通知する。
In-silico 評価では、Paint は所望の状態を単純なラベル付けすることで、一般的なグルコース目標を達成し、商業ベンチマークで血糖リスクを15%削減している。
- 参考スコア(独自算出の注目度): 3.3457851904072595
- License:
- Abstract: Reinforcement learning (RL) has demonstrated success in automating insulin dosing in simulated type 1 diabetes (T1D) patients but is currently unable to incorporate patient expertise and preference. This work introduces PAINT (Preference Adaptation for INsulin control in T1D), an original RL framework for learning flexible insulin dosing policies from patient records. PAINT employs a sketch-based approach for reward learning, where past data is annotated with a continuous reward signal to reflect patient's desired outcomes. Labelled data trains a reward model, informing the actions of a novel safety-constrained offline RL algorithm, designed to restrict actions to a safe strategy and enable preference tuning via a sliding scale. In-silico evaluation shows PAINT achieves common glucose goals through simple labelling of desired states, reducing glycaemic risk by 15% over a commercial benchmark. Action labelling can also be used to incorporate patient expertise, demonstrating an ability to pre-empt meals (+10% time-in-range post-meal) and address certain device errors (-1.6% variance post-error) with patient guidance. These results hold under realistic conditions, including limited samples, labelling errors, and intra-patient variability. This work illustrates PAINT's potential in real-world T1D management and more broadly any tasks requiring rapid and precise preference learning under safety constraints.
- Abstract(参考訳): 強化学習(RL)は、模擬1型糖尿病(T1D)患者においてインスリン投与の自動化に成功したが、現在、患者の専門知識や嗜好を取り入れることができない。
本研究は、患者記録からフレキシブルインスリン投与ポリシーを学習するための独自のRLフレームワークであるPAINT(Preference Adaptation for INsulin Control in T1D)を紹介する。
PAINTは報酬学習のためのスケッチベースのアプローチを採用しており、過去のデータは患者が望む成果を反映するために、継続的な報酬信号で注釈付けされている。
Labelled Dataは報酬モデルをトレーニングし、新しい安全制約付きオフラインRLアルゴリズムの動作を通知する。
In-silico 評価では、PAINT は所望の状態の単純なラベル付けによって共通のグルコース目標を達成することを示し、商業的なベンチマークで血糖リスクを15%低減する。
アクションラベリングは、患者の専門知識を取り入れ、食事のプリエンプト(時間内時間後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後食後
これらの結果は、限られたサンプル、ラベル付けエラー、患者内変動など、現実的な条件下で維持される。
この研究は、現実世界のT1D管理におけるPAINTの可能性を示し、より広い範囲において、安全制約の下で迅速かつ正確な選好学習を必要とするタスクを示している。
関連論文リスト
- Machine Learning for ALSFRS-R Score Prediction: Making Sense of the Sensor Data [44.99833362998488]
筋萎縮性側索硬化症(Amyotrophic Lateral Sclerosis、ALS)は、急速に進行する神経変性疾患である。
iDPP@CLEF 2024チャレンジを先導した今回の調査は,アプリから得られるセンサデータを活用することに焦点を当てている。
論文 参考訳(メタデータ) (2024-07-10T19:17:23Z) - Nurse-in-the-Loop Artificial Intelligence for Precision Management of
Type 2 Diabetes in a Clinical Trial Utilizing Transfer-Learned Predictive
Digital Twin [5.521385406191426]
本研究は, 予測ディジタルツイン(PDT)を利用したオンラインナース・イン・ザ・ループ予測制御(ONLC)モデルを開発した。
PDTは、最初の3ヶ月から参加者の自己モニタリングデータ(体重、食物ログ、身体活動、グルコース)をトレーニングした。
ONLCは介入グループに個別のフィードバックとテキストメッセージによるレコメンデーションを提供した。
論文 参考訳(メタデータ) (2024-01-05T06:38:50Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z) - Hybrid Control Policy for Artificial Pancreas via Ensemble Deep
Reinforcement Learning [13.783833824324333]
閉ループグルコース制御の課題に対処するために, 人工膵(HyCPAP)のハイブリッド制御ポリシーを提案する。
FDAが承認したUVA/Padova T1DMシミュレータを用いた広範囲な実験を行った。
本手法は所望のユーグリセミック範囲で過ごす時間が最も多く,低血糖の発生率が最も低い。
論文 参考訳(メタデータ) (2023-07-13T00:53:09Z) - Automatic diagnosis of knee osteoarthritis severity using Swin
transformer [55.01037422579516]
変形性膝関節症 (KOA) は膝関節の慢性的な痛みと硬直を引き起こす疾患である。
我々は,Swin Transformer を用いて KOA の重大度を予測する自動手法を提案する。
論文 参考訳(メタデータ) (2023-07-10T09:49:30Z) - Learning to diagnose cirrhosis from radiological and histological labels
with joint self and weakly-supervised pretraining strategies [62.840338941861134]
そこで本稿では, 放射線学者が注釈付けした大規模データセットからの転写学習を活用して, 小さい付加データセットで利用できる組織学的スコアを予測することを提案する。
我々は,肝硬変の予測を改善するために,異なる事前訓練法,すなわち弱い指導法と自己指導法を比較した。
この方法は、METAVIRスコアのベースライン分類を上回り、AUCが0.84、バランスの取れた精度が0.75に達する。
論文 参考訳(メタデータ) (2023-02-16T17:06:23Z) - SynthA1c: Towards Clinically Interpretable Patient Representations for
Diabetes Risk Stratification [0.5551483435671848]
2型糖尿病(T2DM)の早期診断は、タイムリーな治療介入とライフスタイルの変更を可能にするために重要である。
画像由来の表現型と身体検査データを組み合わせて糖尿病リスクを正確に予測できることを示す。
論文 参考訳(メタデータ) (2022-09-20T23:39:52Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Controlling Level of Unconsciousness by Titrating Propofol with Deep
Reinforcement Learning [5.276232626689567]
強化学習は、患者の状態から薬局へのマッピングに適合するために用いられる。
Deep RLは、テーブルをディープニューラルネットワークに置き換え、レジストリデータベースから薬局を学習するために使用されている。
論文 参考訳(メタデータ) (2020-08-27T18:47:08Z) - DTR Bandit: Learning to Make Response-Adaptive Decisions With Low Regret [59.81290762273153]
動的治療体制 (DTR) はパーソナライズされ適応された多段階の治療計画であり、治療決定を個人の初期特徴に適応させ、その後の各段階における中間結果と特徴に適応させる。
本稿では,探索と搾取を慎重にバランスさせることで,遷移モデルと報酬モデルが線形である場合に,速度-最適後悔を実現する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T13:03:42Z) - Detecting Parkinsonian Tremor from IMU Data Collected In-The-Wild using
Deep Multiple-Instance Learning [59.74684475991192]
パーキンソン病(英: Parkinson's Disease、PD)は、60歳以上の人口の約1%に影響を与える徐々に進化する神経学的疾患である。
PD症状には、震動、剛性、ブレイキネジアがある。
本稿では,スマートフォン端末から受信したIMU信号に基づいて,PDに関連するトレモラスなエピソードを自動的に識別する手法を提案する。
論文 参考訳(メタデータ) (2020-05-06T09:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。