Fugu-MT 論文翻訳(概要): Learning to Compress Time-to-Control: A Reinforcement Learning Framework for Chronic Disease Management

論文の概要: Learning to Compress Time-to-Control: A Reinforcement Learning Framework for Chronic Disease Management

arxiv url: http://arxiv.org/abs/2605.09818v1
Date: Sun, 10 May 2026 23:43:39 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-12 23:28:50.432777
Title: Learning to Compress Time-to-Control: A Reinforcement Learning Framework for Chronic Disease Management
Title（参考訳）: 慢性疾患管理のための強化学習フレームワーク「Time-to-Control」の学習
Authors: Prabhjot Singh, Abhishek Gupta, Chris Betz, Abe Flansburg, Brett Ives, Sudeep Lama, Jung Hoon Son,
Abstract要約: 我々は、慢性疾患管理は、その分野が主に研究してきた急性期医療問題よりも、構造的によりトラクタブルなRL設定であると主張している。高血圧症および2型糖尿病に対する人工状態機械のシミュレーション結果について報告する。
参考スコア（独自算出の注目度）: 4.772536418776007
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning (RL) in healthcare has had mixed results, with reward sparsity, unreliable off-policy evaluation, and deployment-simulation gap as recurring failure modes. We argue that chronic disease management is structurally a more tractable RL setting than the acute-care problems the field has primarily studied, but only if the problem is formalized to exploit chronic care's properties. We propose such a formalization. The agent's objective is to compress time-to-control (TTC) under a tiered reward calibrated to the CMS ACCESS Model. Two quantities from our companion preference-learning paper [Singh et al. 2026] enter as load-bearing structural elements: the execution intensity εbounds action availability under a constrained Markov Decision Process, and the clinician capability κweights offline-data transitions during RL training. Together they couple preference learning and RL into a two-loop architecture. We present simulation results on synthetic state machines for hypertension and type 2 diabetes. Capability-weighted offline RL outperforms uniform-weighted offline RL and the behavior policy by 15 percentage points on T2D TTC; the uniform-weighted formulation (the standard in existing healthcare RL) underperforms even the heterogeneous behavior policy. \Epsilon-aware policies generalize across deployment regimes while ε-naive policies do not.
Abstract（参考訳）: 医療における強化学習(Reinforcement Learning, RL)は, 報酬の分散, 信頼できない非政治評価, 繰り返し発生する障害モードとしての展開シミュレーションギャップなど, 様々な結果が得られた。我々は、慢性疾患管理が、主に研究してきた急性期医療の課題よりも、構造的にもよりトラクタブルなRL設定であると論じるが、その問題が慢性期医療の特性を活用するために形式化された場合のみである。そのような形式化を提案する。エージェントの目的は、CMS ACCESS Modelに校正された階層型報酬の下で、TTC(Time-to-control)を圧縮することである。コンパニオン選好学習用紙(Singh et al 2026)から得られた2つの量は負荷を有する構造要素として入力される: 実行強度εはマルコフ決定プロセスの下での動作可用性を制限し、クリニカル能力κweightはRLトレーニング中にオフラインデータ遷移を行う。それぞれが好みの学習とRLを2ループアーキテクチャに結合する。高血圧症および2型糖尿病に対する人工状態機械のシミュレーション結果について報告する。機能重み付きオフラインRLは、T2D TTCにおいて、均一なオフラインRLと行動ポリシーを15パーセント向上させ、一様重み付き定式化(既存のヘルスケアRLの標準)は、異種行動ポリシーでさえも性能が低下する。 Epsilon-awareポリシーはデプロイ体制全体にわたって一般化されるが、ε-naiveポリシーはそうではない。

関連論文リスト

Eliciting Medical Reasoning with Knowledge-enhanced Data Synthesis: A Semi-Supervised Reinforcement Learning Approach [62.0906177191353]
既存のアプローチでは、教師付き微調整を経て、大規模プロプライエタリモデルからの連鎖推論トレースを蒸留し、強化学習(RL)を実施している。 MedSSRは,医療知識を付加したデータ合成と半教師付き強化学習フレームワークである。本フレームワークはまず, 分布制御可能な推論質問を合成するために, 稀な疾患知識を利用する。次に、ポリシーモデル自体を利用して高品質な擬似ラベルを生成する。これにより、擬似ラベルデータ上での自己教師型RLと、人間の注釈付き実データ上での教師型RLの2段階固有の訓練パラダイムが実現される。
論文参考訳（メタデータ） (2026-04-13T14:37:38Z)
ContractionPPO: Certified Reinforcement Learning via Differentiable Contraction Layers [5.690649768462432]
本稿では,手足ロボットのロバストな計画と制御のためのフレームワークであるContractionPPOを提案する。収縮PPOは、模擬閉ループ系の指数的安定性を証明する収縮計量を生成する。四足歩行におけるハードウェア実験により,強い外乱下であっても,ContractionPPOは頑健で安定な制御を可能にすることが示された。
論文参考訳（メタデータ） (2026-03-20T04:32:18Z)
Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。 CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文参考訳（メタデータ） (2026-02-22T07:23:36Z)
Guardian-regularized Safe Offline Reinforcement Learning for Smart Weaning of Mechanical Circulatory Devices [19.512275639322638]
心原性ショック患者における機械的循環補助装置の自動織りに関するシーケンシャル意思決定問題について検討した。オフライン強化学習は、シーケンシャルな意思決定タスクで成功している。 2つの重要なコントリビューションを持つエンドツーエンドの機械学習フレームワークを開発します。
論文参考訳（メタデータ） (2025-11-08T19:32:31Z)
Reinforcement Learning for Target Zone Blood Glucose Control [15.612220895230065]
強化学習は治療のパーソナライズを約束するが、介入の遅延と不均一な効果に苦しむ。本稿では,自動インスリンデリバリーなどT1DM技術における意思決定を支援するための新しいRLフレームワークを提案する。
論文参考訳（メタデータ） (2025-08-05T19:35:41Z)
Stable CDE Autoencoders with Acuity Regularization for Offline Reinforcement Learning in Sepsis Treatment [8.692991479188032]
敗血症治療のための効果的な強化学習(RL)は、不規則なICU時系列から、安定した、臨床的に有意な状態表現を学習することに依存する。この研究は、制御微分方程式(CDE)状態表現が、2つの重要な因子が満たされたときに強いRLポリシーを達成できることを実証する。
論文参考訳（メタデータ） (2025-06-17T23:10:51Z)
Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone [72.17534881026995]
ポリシーに依存しないRL(PA-RL)と呼ばれるオフラインおよびオンラインの微調整手法を開発する。オンラインRLファインチューニングアルゴリズムであるCal-QLを用いて、7BジェネラリストロボットポリシーであるOpenVLAのファインチューニングに成功した最初の結果を示す。
論文参考訳（メタデータ） (2024-12-09T17:28:03Z)
Action-Quantized Offline Reinforcement Learning for Robotic Skill Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。本稿では,アクション量子化のための適応型スキームを提案する。 IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-10-18T06:07:10Z)
Offline RL With Realistic Datasets: Heteroskedasticity and Support Constraints [82.43359506154117]
非均一な変数を持つデータから、典型的なオフライン強化学習手法が学習できないことを示す。提案手法は,Atariゲーム,ナビゲーション,ピクセルベースの操作において,多種多様なオフラインRL問題にまたがる性能向上を図っている。
論文参考訳（メタデータ） (2022-11-02T11:36:06Z)
Is Deep Reinforcement Learning Ready for Practical Applications in Healthcare? A Sensitivity Analysis of Duel-DDQN for Hemodynamic Management in Sepsis Patients [25.71979754918741]
ICU患者に対する血行動態安定化治療戦略に応用した最先端RLアルゴリズムの感度解析を行った。入力機能,埋め込みモデルアーキテクチャ,時間離散化,報酬関数,ランダムシードに対する学習ポリシーの感度について検討する。その結果,これらの設定が学習ポリシーに大きく影響し,RLエージェントの出力を解釈する際に注意が必要であることが示唆された。
論文参考訳（メタデータ） (2020-05-08T22:08:31Z)
Robust Deep Reinforcement Learning against Adversarial Perturbations on State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文参考訳（メタデータ） (2020-03-19T17:59:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。