論文の概要: Optimizing Warfarin Dosing Using Contextual Bandit: An Offline Policy
Learning and Evaluation Method
- arxiv url: http://arxiv.org/abs/2402.11123v1
- Date: Fri, 16 Feb 2024 23:13:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 23:11:17.502808
- Title: Optimizing Warfarin Dosing Using Contextual Bandit: An Offline Policy
Learning and Evaluation Method
- Title(参考訳): 文脈的バンディットを用いたウォーファリンドーシングの最適化 : オフラインポリシー学習と評価手法
- Authors: Yong Huang, Charles A. Downs, Amir M. Rahmani
- Abstract要約: 抗凝固薬であるワーファリンは、異常な血液凝固に関連する疾患を予防し、対処するために配合される。
個々の反応の変化によって適切な服薬を見つけることは依然として困難であり、誤った服薬を処方することは深刻な結果をもたらす可能性がある。
最適な個人用服用戦略を決定するために,文脈的包帯と強化学習を用いた。
- 参考スコア(独自算出の注目度): 2.8806234438838256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Warfarin, an anticoagulant medication, is formulated to prevent and address
conditions associated with abnormal blood clotting, making it one of the most
prescribed drugs globally. However, determining the suitable dosage remains
challenging due to individual response variations, and prescribing an incorrect
dosage may lead to severe consequences. Contextual bandit and reinforcement
learning have shown promise in addressing this issue. Given the wide
availability of observational data and safety concerns of decision-making in
healthcare, we focused on using exclusively observational data from historical
policies as demonstrations to derive new policies; we utilized offline policy
learning and evaluation in a contextual bandit setting to establish the optimal
personalized dosage strategy. Our learned policies surpassed these baseline
approaches without genotype inputs, even when given a suboptimal demonstration,
showcasing promising application potential.
- Abstract(参考訳): 抗凝固薬であるウォーファリンは、異常な血液凝固に関連する疾患を予防し対処するために配合され、世界で最も処方された薬物の1つである。
しかし、個々の反応の変化によって適切な投与量を決定することは依然として困難であり、誤った服用を処方することは深刻な結果をもたらす可能性がある。
コンテキストバンディットと強化学習は、この問題に取り組む上での約束を示している。
医療における観察データの普及と意思決定の安全性を考慮し,新しい政策を導出するための実証として,歴史的政策からの観察データのみを活用し,文脈的バンディット設定におけるオフライン政策学習と評価を活用し,最適なパーソナライズド・ドセージ戦略を確立した。
我々の学習方針は、遺伝子型入力を伴わずにこれらのベースラインアプローチを超越し、たとえ準最適実証を与えられたとしても、有望な応用可能性を示す。
関連論文リスト
- Safe and Interpretable Estimation of Optimal Treatment Regimes [54.257304443780434]
我々は、最適な治療体制を特定するための安全かつ解釈可能な枠組みを運用する。
本研究は患者の医療歴と薬理学的特徴に基づくパーソナライズされた治療戦略を支援する。
論文 参考訳(メタデータ) (2023-10-23T19:59:10Z) - Optimal and Fair Encouragement Policy Evaluation and Learning [11.712023983596914]
本研究は, 陽性の潜在的な違反を含む最適治療規則の因果同定とロバストな評価について検討した。
一般制約下でのパラメタライズされたポリシークラスを解くための2段階のアルゴリズムを開発し、分散感応的後悔境界を求める。
本研究は, SNAP給付のリマインダーデータ, 保険申請の無作為化促進, および電子監視による事前管理リリースに基づく3つのケーススタディである。
論文 参考訳(メタデータ) (2023-09-12T20:45:30Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - Evaluating COVID-19 vaccine allocation policies using Bayesian $m$-top
exploration [53.122045119395594]
マルチアーム・バンディット・フレームワークを用いてワクチンのアロケーション戦略を評価する新しい手法を提案する。
$m$-top Exploringにより、アルゴリズムは最高のユーティリティを期待する$m$ポリシーを学ぶことができる。
ベルギーのCOVID-19流行を個人モデルSTRIDEを用いて検討し、予防接種方針のセットを学習する。
論文 参考訳(メタデータ) (2023-01-30T12:22:30Z) - Relative Sparsity for Medical Decision Problems [0.0]
医療提供者や患者に対して、新しい方針が現在のケアの基準とどのように異なるかを説明することが重要であることが多い。
我々は,lambda$を選択し,シミュレーションを行い,実際の医療データセットを用いて本手法を説明するための基準を提案する。
論文 参考訳(メタデータ) (2022-11-29T20:00:11Z) - Conformal Off-Policy Prediction in Contextual Bandits [54.67508891852636]
コンフォーマルなオフ政治予測は、新しい目標ポリシーの下で、結果に対する信頼できる予測間隔を出力することができる。
理論上の有限サンプル保証は、標準的な文脈的バンディットの設定を超える追加の仮定をすることなく提供する。
論文 参考訳(メタデータ) (2022-06-09T10:39:33Z) - Interpretable Off-Policy Learning via Hyperbox Search [20.83151214072516]
本稿では,ハイパーボックス検索による非政治学習の解釈アルゴリズムを提案する。
我々のポリシーは可解な正規形式(すなわち OR-of-ANDs)で表すことができ、したがって不可知である。
我々のアルゴリズムは、後悔の観点から、政治以外の学習を解釈することによる最先端の手法よりも優れていることを実証する。
論文 参考訳(メタデータ) (2022-03-04T18:10:24Z) - Distributionally Robust Batch Contextual Bandits [20.667213458836734]
歴史的観測データを用いた政策学習は、広く応用されている重要な問題である。
既存の文献は、学習方針が展開される将来の環境が過去の環境と同じである、という決定的な前提に基づいている。
本稿では、この仮定を引き上げ、不完全な観測データを用いて、分布的に堅牢なポリシーを学習することを目的とする。
論文 参考訳(メタデータ) (2020-06-10T03:11:40Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Optimizing Medical Treatment for Sepsis in Intensive Care: from
Reinforcement Learning to Pre-Trial Evaluation [2.908482270923597]
本研究の目的は, 介入を最適化する強化学習(RL)が, 学習方針の治験に対する規制に適合する経路を遡及的に得る枠組みを確立することである。
我々は,死の主な原因の一つであり,複雑で不透明な患者動態のため治療が困難である集中治療室の感染症に焦点を当てた。
論文 参考訳(メタデータ) (2020-03-13T20:31:47Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。