論文の概要: Boosted Distributional Reinforcement Learning: Analysis and Healthcare Applications
- arxiv url: http://arxiv.org/abs/2604.04334v2
- Date: Fri, 10 Apr 2026 04:01:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 13:51:27.570563
- Title: Boosted Distributional Reinforcement Learning: Analysis and Healthcare Applications
- Title(参考訳): 分散強化学習の強化:分析と医療応用
- Authors: Zequn Chen, Wesley J. Marrero,
- Abstract要約: 本稿では,ロボット工学や医療といった複雑な領域における意思決定を最適化するための分散強化学習アルゴリズムを提案する。
心血管疾患リスクグループに個人を分類することで,米国の成人人口の多大サブセットにおける高血圧管理に本アルゴリズムを適用した。
- 参考スコア(独自算出の注目度): 0.8348593305367524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Researchers and practitioners are increasingly considering reinforcement learning to optimize decisions in complex domains like robotics and healthcare. To date, these efforts have largely utilized expectation-based learning. However, relying on expectation-focused objectives may be insufficient for making consistent decisions in highly uncertain situations involving multiple heterogeneous groups. While distributional reinforcement learning algorithms have been introduced to model the full distributions of outcomes, they can yield large discrepancies in realized benefits among comparable agents. This challenge is particularly acute in healthcare settings, where physicians (controllers) must manage multiple patients (subordinate agents) with uncertain disease progression and heterogeneous treatment responses. We propose a Boosted Distributional Reinforcement Learning (BDRL) algorithm that optimizes agent-specific outcome distributions while enforcing comparability among similar agents and analyze its convergence. To further stabilize learning, we incorporate a post-update projection step formulated as a constrained convex optimization problem, which efficiently aligns individual outcomes with a high-performing reference within a specified tolerance. We apply our algorithm to manage hypertension in a large subset of the US adult population by categorizing individuals into cardiovascular disease risk groups. Our approach modifies treatment plans for median and vulnerable patients by mimicking the behavior of high-performing references in each risk group. Furthermore, we find that BDRL improves the number and consistency of quality-adjusted life years compared with reinforcement learning baselines.
- Abstract(参考訳): 研究者や実践者は、ロボット工学や医療といった複雑な領域における意思決定を最適化するために強化学習を検討している。
これまでのところ、これらの取り組みは期待に基づく学習を大いに活用してきた。
しかし、予想に焦点を絞った目的に頼ることは、複数の異種集団を含む非常に不確実な状況において一貫した決定を下すには不十分である。
結果の完全な分布をモデル化するために分散強化学習アルゴリズムが導入されたが、それと同等のエージェント間で実現された利益において大きな相違が生じる可能性がある。
この課題は、医師(制御装置)が不確実な疾患の進行と不均一な治療反応で複数の患者(従属エージェント)を管理する必要がある医療環境では特に深刻である。
エージェント固有の結果分布を最適化し,類似エージェント間のコンパビリティを向上し,その収束度を解析するBDRL(Boosted Distributional Reinforcement Learning)アルゴリズムを提案する。
さらに学習を安定させるために,制約付き凸最適化問題として定式化された更新後の投影ステップを組み込んだ。
心血管疾患リスクグループに個人を分類することで,米国の成人人口の多大サブセットにおける高血圧管理に本アルゴリズムを適用した。
リスクグループごとのハイパフォーマンス参照の振る舞いを模倣し,中等度および弱度患者に対する治療計画を変更する。
さらに,BDRLは,強化学習ベースラインと比較して,品質調整寿命の数と一貫性を向上することがわかった。
関連論文リスト
- Heterogeneous Agent Collaborative Reinforcement Learning [52.99813668995983]
不均一エージェント協調強化学習(HACRL)
本稿では,このパラダイムに基づいて,サンプル利用とエージェント間の知識伝達を最大化するために,原則的なロールアウト共有を可能にする協調RLアルゴリズムであるHACPOを提案する。
多様な異種モデルの組み合わせと推論ベンチマークによる実験により、HACPOはすべてのエージェントを一貫して改善し、GSPOを平均3.3%上回り、ロールアウトコストの半分しか使っていないことが示された。
論文 参考訳(メタデータ) (2026-03-03T05:09:49Z) - Balancing Fairness and Performance in Healthcare AI: A Gradient Reconciliation Approach [3.997371369137763]
明示的な公平性を考慮せずにデプロイされたAIシステムは、既存の医療格差を悪化させるリスクを負う。
予測性能とマルチ属性フェアネス最適化のバランスをとる新しい勾配調整フレームワークであるFairGradを提案する。
論文 参考訳(メタデータ) (2025-04-19T19:24:34Z) - Adaptive Multi-Agent Deep Reinforcement Learning for Timely Healthcare Interventions [17.405080523382235]
マルチエージェント深部強化学習(DRL)を用いた新しいAI駆動型患者監視フレームワークを提案する。
アプローチでは複数の学習エージェントをデプロイし,心拍数,呼吸量,温度などの生理的特徴をモニタする。
提案する多エージェントDRLフレームワークの性能を,2つのデータセットから実世界の生理・運動データを用いて評価した。
論文 参考訳(メタデータ) (2023-09-20T00:42:08Z) - Deep Reinforcement Learning for Efficient and Fair Allocation of Health Care Resources [47.57108369791273]
医療資源の枯渇は、レーションの避けられない結果をもたらす可能性がある。
医療資源割り当てプロトコルの普遍的な標準は存在しない。
本稿では,患者の疾患進行と患者間の相互作用効果を統合するためのトランスフォーマーベースのディープQネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-15T17:28:06Z) - Decentralized Adversarial Training over Graphs [44.03711922549992]
近年、敵攻撃に対する機械学習モデルの脆弱性が注目されている。
マルチエージェントシステムのための分散逆数フレームワークを開発する。
論文 参考訳(メタデータ) (2023-03-23T15:05:16Z) - Reinforcement Learning with Heterogeneous Data: Estimation and Inference [84.72174994749305]
人口の不均一性に関する逐次的決定問題に対処するために,K-ヘテロ・マルコフ決定過程(K-ヘテロ・MDP)を導入する。
本稿では、ある政策の価値を推定するための自己クラスタ化政策評価(ACPE)と、ある政策クラスにおける最適な政策を推定するための自己クラスタ化政策イテレーション(ACPI)を提案する。
理論的な知見を裏付けるシミュレーションを行い,MIMIC-III標準データセットの実証的研究を行った。
論文 参考訳(メタデータ) (2022-01-31T20:58:47Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。