論文の概要: Reinforcement Learning enhanced Online Adaptive Clinical Decision Support via Digital Twin powered Policy and Treatment Effect optimized Reward
- arxiv url: http://arxiv.org/abs/2508.17212v1
- Date: Sun, 24 Aug 2025 04:51:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.403594
- Title: Reinforcement Learning enhanced Online Adaptive Clinical Decision Support via Digital Twin powered Policy and Treatment Effect optimized Reward
- Title(参考訳): デジタル双極式政策と治療効果最適化リワードによる強化学習によるオンライン適応型臨床診断支援
- Authors: Xinyu Qin, Ruiheng Yu, Lu Wang,
- Abstract要約: 本稿では、強化学習がポリシーを提供し、患者デジタルツインが環境を提供し、治療効果が報酬を定義するオンライン適応ツールを提案する。
人工臨床シミュレータの実験では、レイテンシの低下、スループットの安定、安全度の高いクエリ率の低下、標準値ベースラインに対するリターンの改善などが示されている。
- 参考スコア(独自算出の注目度): 3.3025649517524793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clinical decision support must adapt online under safety constraints. We present an online adaptive tool where reinforcement learning provides the policy, a patient digital twin provides the environment, and treatment effect defines the reward. The system initializes a batch-constrained policy from retrospective data and then runs a streaming loop that selects actions, checks safety, and queries experts only when uncertainty is high. Uncertainty comes from a compact ensemble of five Q-networks via the coefficient of variation of action values with a $\tanh$ compression. The digital twin updates the patient state with a bounded residual rule. The outcome model estimates immediate clinical effect, and the reward is the treatment effect relative to a conservative reference with a fixed z-score normalization from the training split. Online updates operate on recent data with short runs and exponential moving averages. A rule-based safety gate enforces vital ranges and contraindications before any action is applied. Experiments in a synthetic clinical simulator show low latency, stable throughput, a low expert query rate at fixed safety, and improved return against standard value-based baselines. The design turns an offline policy into a continuous, clinician-supervised system with clear controls and fast adaptation.
- Abstract(参考訳): 臨床診断支援は、安全上の制約の下でオンラインに適応しなければならない。
本稿では、強化学習がポリシーを提供し、患者デジタルツインが環境を提供し、治療効果が報酬を定義するオンライン適応ツールを提案する。
このシステムは、レトロスペクティブデータからバッチ制約されたポリシーを初期化し、不確実性が高い場合にのみ、アクションを選択し、安全を確認し、専門家に問い合わせるストリーミングループを実行する。
不確実性は、$\tanh$圧縮のアクション値の変動係数を通じて、5つのQ-ネットのコンパクトアンサンブルから生じる。
デジタルツインは、患者状態を有界残差規則で更新する。
結果モデルは即時臨床効果を推定し、報酬はトレーニングスプリットからの固定zスコア正規化による保守的基準に対する治療効果である。
オンライン更新は、ショートランと指数的な移動平均を持つ最近のデータで動作する。
規則に基づく安全ゲートは、あらゆるアクションが適用される前に、重要な範囲と禁忌を強制する。
人工臨床シミュレータの実験では、レイテンシの低下、スループットの安定、安全度の高いクエリ率の低下、標準値ベースラインに対するリターンの改善などが示されている。
このデザインは、オフラインポリシーを、明確なコントロールと迅速な適応を備えた、継続的な臨床監督システムに変える。
関連論文リスト
- Double Check My Desired Return: Transformer with Target Alignment for Offline Reinforcement Learning [63.79928625391378]
オフラインの強化学習は、ロボット制御、自律運転、医療意思決定といった分野において大きな進歩を遂げている。
そこで我々は,Offline RLの目標アライメントによる変換器の二重チェックを行う新しいアプローチであるDoctorを提案する。
論文 参考訳(メタデータ) (2025-08-22T14:30:53Z) - Distribution-Free Uncertainty Quantification in Mechanical Ventilation Treatment: A Conformal Deep Q-Learning Framework [2.5070297884580874]
本研究では,集中治療室における機械的換気を最適化するための,分布自由な共形深度Q-ラーニング手法であるConformalDQNを紹介する。
我々はMIMIC-IVデータベースからICU患者記録を用いてモデルを訓練・評価した。
論文 参考訳(メタデータ) (2024-12-17T06:55:20Z) - Differentially Private Distributed Inference [2.4401219403555814]
臨床試験に協力する医療センターは、知識共有と機密データ保護のバランスを取る必要がある。
情報漏洩を制御するために差分プライバシー(DP)を用いてこの問題に対処する。
エージェントはログリニアルールを通じて信条統計を更新し、DPノイズは信頼性の高い識別性と厳格な性能保証を提供する。
論文 参考訳(メタデータ) (2024-02-13T01:38:01Z) - Pruning the Way to Reliable Policies: A Multi-Objective Deep Q-Learning Approach to Critical Care [46.2482873419289]
我々は、より信頼性の高いクリティカルケアポリシーを得るための深いQ-ラーニングアプローチを導入する。
本手法を,集中治療室のシミュレーション環境と実際の健康記録を用いて,オフライン・オフ・セッティングで評価した。
論文 参考訳(メタデータ) (2023-06-13T18:02:57Z) - Federated Offline Reinforcement Learning [55.326673977320574]
マルチサイトマルコフ決定プロセスモデルを提案する。
我々は,オフラインRLを対象とした最初のフェデレーション最適化アルゴリズムを設計する。
提案アルゴリズムでは,学習ポリシーの準最適性は,データが分散していないような速度に匹敵する,理論的保証を与える。
論文 参考訳(メタデータ) (2022-06-11T18:03:26Z) - Post-Contextual-Bandit Inference [57.88785630755165]
コンテキストバンディットアルゴリズムは、電子商取引、医療、政策立案における非適応的なA/Bテストを置き換える傾向にある。
研究参加者の成果を改善することもでき、良い方針や最良の政策を特定できる可能性を高めることもできる。
研究の終盤における新規介入の信頼性推論を支援するため, 平均治療効果, サブグループ効果, あるいは新政策の価値について, 有効な信頼区間を構築したい。
論文 参考訳(メタデータ) (2021-06-01T12:01:51Z) - DTR Bandit: Learning to Make Response-Adaptive Decisions With Low Regret [59.81290762273153]
動的治療体制 (DTR) はパーソナライズされ適応された多段階の治療計画であり、治療決定を個人の初期特徴に適応させ、その後の各段階における中間結果と特徴に適応させる。
本稿では,探索と搾取を慎重にバランスさせることで,遷移モデルと報酬モデルが線形である場合に,速度-最適後悔を実現する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T13:03:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。